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文艺 复兴 以 来 ,源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著 
fe, AMER TORN. BRANT SRR. PSR. MARFA, 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 
日 益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 
机 科学 发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华 章 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 北 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 
了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne 
Stroustrup, Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, 
John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 书 ” 
为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 
和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 
书籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐 
渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 www. hzbook. com 
电子 邮件 ， hzjsj@hzbook. com 
联系 电话 : (010) 88379604 让 
联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 


邮政 编码 :100037 华章 科技 图 书 出 版 中 心 
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我 们 的 时 代 已 经 由 物品 的 缺乏 时 代 进 化 到 了 丰富 时 代 ， 随 着 物品 的 数量 和 种 类 越 来 越 
多 ， 人 的 注意 力 成 为 稀缺 资源 ， 于 是 ， 推 荐 系统 的 重要 性 凸显 了 出 来 。 推 荐 系统 是 一 种 预 
测 用 户 对 商品 和 信息 的 喜好 或 评分 的 模型 ， 如 何 发 现 用 户 感 兴趣 的 信息 和 商品 是 推荐 系统 
要 解决 的 问题 ， 是 用 户 从 互联 网 上 浩如烟海 的 信息 中 发 现 适 合 于 自己 信息 和 商品 的 重要 
渠道 。 

正 因为 推荐 系统 的 重要 性 ， 它 已 经 成 为 计算 机 科学 中 的 一 个 热门 领域 ， 研 究 人 员 提 出 
了 大 量 模型 和 算法 。 推 荐 系统 中 需要 考虑 的 因素 很 多 ， 既 要 考虑 效率 ， 也 要 考虑 有 效 性 ; 
既 要 考虑 用 户 心理 ， 也 要 考虑 用 户 的 行为 :， 既 要 考虑 商品 和 信息 的 外 在 属性 ， 又 要 考虑 商 
品 和 信息 的 相互 关联 。 由 于 其 综合 性 和 复杂 性 ， 这 个 领域 可 以 看 成 是 数据 库 、 自 然 语言 处 
理 、 机 器 学 习 、 信 息 检索 、 算 法 其 至 心理 学 等 领域 的 综合 与 交叉 。 

由 于 上 述 特 点 以 及 学 科 的 快速 发 展 ， 推 荐 系统 的 知识 显得 相当 繁杂 ， 从 中 梳理 出 一 个 
明晰 的 知识 体系 对 于 学 习 者 来 说 显得 特别 重要 。 本 书 就 是 能 给 推荐 系统 的 学 习 者 展示 其 完 
整体 系 的 一 本 教材 。 

本 书 的 作者 Charu Aggarwal 是 数据 库 和 数据 挖掘 领域 知名 专家 ， 现 就 职 于 IBM 
T. J. Watson Research Center, Œ ACM Fellow, IEEE Fellow, # H-index 达到 80。 他 在 
PEAS I Hah AS Ze AE SE Zs ARS aT PRUE TARA E, RERE., 

。 广度 ”本 书 涵盖 推荐 系统 的 原理 ， 并 介绍 推荐 系统 中 的 各 类 技术 ， 大 致 可 以 分 为 
协同 过 滤 方 法 、 基 于 内 容 的 方法 和 基于 知识 的 方法 三 类 。 除 了 推荐 系统 的 相关 主 
题 以 外 ， 本 书 还 探讨 了 和 特定 领域 相关 的 技术 ， 以 及 如 何 抵御 攻击 等 高 级 话题 。 
书 中 大 量 的 示例 和 习题 有 助 于 读者 对 推荐 系统 技术 的 理解 和 掌握 。 
深度 ”本 书 对 推荐 系统 的 内 容 介 绍 不 仅仅 流 于 技术 层面 ,更 深入 阐述 推荐 技术 背 
后 的 原理 ,特别 是 没有 回避 其 中 大 量 深入 的 数学 方法 ,这 保证 了 本 书 理论 和 技术 
的 融合 ， 使 得 读者 知 其 然 更 知 其 所 以 然 ， 做 到 理论 和 实际 的 衔接 。 
厚度 ”推荐 系统 相关 技术 已 经 发 展 多 年 ， 并 且 现 在 仍然 是 研究 热点 。 本 书 兼 顾 了 
推荐 系统 历史 和 发 展 ， 既 介绍 了 一 系列 传统 的 推荐 技术 ， 也 介绍 了 推荐 系统 最 新 
的 技术 ， 体 现 了 推荐 系统 发 展 的 厚度 。 

由 于 这 些 特点 ， 本 书 具 有 广泛 的 适用 性 ， 既 适合 作为 初学 者 入 门 的 教材 ， 也 适合 作为 
进 阶 者 深入 学 习 的 指导 教材 ; 既 适 合作 为 开发 人 员 的 参考 资料 ， 也 适合 作为 研究 人 员 的 研 
REF 
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大 自然 呈现 在 我 们 面前 的 只 是 一 头 狮子 的 尾巴 。 但 不 要 怀疑 狮子 的 存在 ， 尽 管 它 因为 
身 型 巨大 不 能 马上 现 出 全 身 。 


一 一 Albert Einstein 


随 着 Web 成 为 商务 和 电子 交易 的 重要 媒介 ， 推 荐 系统 在 20 世纪 90 年 代 变 得 越 来 越 
重要 。 人 们 很 早 就 认识 到 Web 为 个 性 化 服务 提供 了 空前 的 机 会 ， 这 是 其 他 渠道 是 不 可 能 
做 到 的 。 特 别 是 Web 为 数据 收集 提供 了 便利 ， 并 且 提 供 了 一 种 非 侵入 式 地 推荐 物品 的 用 
户 界面 。 

自 此 以 后 ， 在 公众 眼中 ， 推 荐 系统 已 经 得 到 了 显著 的 发 展 。 这 一 事实 的 证 据 是 ， 有 许 
多 会 议和 研讨 会 专门 探讨 该 领域 。 会 议 ACM Conference on Recommender Systems 特别 值 
得 一 提 ， 因 为 它 为 该 领域 定期 贡献 了 许多 前 沿 工 作 。 推 荐 系统 领域 非常 多 样 化 ， 因 为 它 能 
够 使 用 各 种 类 型 的 用 户 偏 好 数据 和 用 户 需 求 数据 来 做 推荐 。 推 荐 系统 中 最 著名 的 方法 包括 
协同 过 滤 方 法 、 基 于 内 容 的 方法 和 基于 知识 的 方法 。 这 三 种 方法 构成 了 推荐 系统 研究 领域 
的 基本 支柱 。 近 年 来 ， 已 经 设计 了 一 些 专门 的 方法 来 针对 不 同 的 数据 领域 和 上 下 文 ， 例 如 
时 间 、 位 置 和 社会 信息 。 针 对 专门 的 场景 提出 了 大 量 高 级 的 方法 ， 这 些 方 法 可 以 调整 用 于 
不 同 的 应 用 领域 ,例如 查询 日 志 挖 据 、 新 闻 推 荐 和 计算 广告 。 本 书 的 结构 安排 体现 了 这 些 
重要 的 话题 。 本 书 的 章节 可 以 分 为 三 类 ， 

1) 算法 和 评估 : 这 些 章节 讨论 了 推荐 系统 中 的 基本 算法 ， 包 括 协同 过 滤 方 法 (第 2 
和 4 章 )、 基 于 内 容 的 方法 〈 第 4 章 ) 和 基于 知识 的 方法 (第 5 章 )。 这 些 方法 的 混合 在 第 
6 章 中 讨论 。 第 7 章 讨 论 了 推荐 系统 评估 。 

2) 特定 领域 和 上 下 文 的 推荐 : 推荐 系统 的 上 下 文 在 提供 有 效 推荐 方面 扮演 了 至 关 重 
要 的 角色 。 例 如 ， 一 个 用 户 想 要 用 其 位 置 作 为 附加 的 上 下 文 (context) 来 查找 饭店 。 推 荐 
的 上 下 文 可 以 被 看 作 是 影响 推荐 目标 的 重要 辅助 信息 。 不 同类 型 的 域 ， 例如 时 间 数 据 、 空 
间 数 据 和 社会 数据 ， 提 供 了 不 同类 型 的 上 下 文 。 相 关 的 方法 在 第 8 一 11 章 中 讨论 。 第 11 
章 也 讨论 了 利用 社会 信息 来 增加 推荐 过 程 可 信和 度 的 话题 。 最 近 的 话题 (如 分 解 机 和 可 信 推 
荐 系统 ) 在 这 些 章节 中 也 有 涉及 。 

3) 高 级 话题 和 应 用 : 在 第 12 章 中 ， 我 们 将 从 各 个 角度 讨论 推荐 系统 的 健壮 性 ， 例 如 
欺诈 (shilling) 系统 、 攻 击 模式 及 其 防御 。 此 外 ， 近 期 的 一 些 话题 ， 例 如 排名 学 习 、 多 臂 
赌博 机 、 组 推荐 系统 、 多 标准 推荐 系统 和 主动 学 习 系 统 ， 将 在 第 13 章 中 讨论 。 该 章 的 一 
个 重要 目标 是 向 读者 介绍 当前 研究 的 基本 思想 和 原则 。 虽 然 不 可 能 在 一 本 书 里 对 当前 所 有 
的 研究 技术 细节 进行 讨论 ， 但 我 们 希望 最 后 一 章 能 够 在 高 级 话题 方面 为 读者 “破冰 ”。 在 
这 一 章 中 ， 我 们 也 研究 了 推荐 技术 的 一 些 应 用 环境 ， 例 如 新 闻 推 荐 、 查 询 推荐 和 计算 广 
告 。 本 章 还 讨论 了 如 何 将 前 面 章节 中 介绍 的 方法 应 用 于 各 个 不 同 的 领域 。 

尽管 本 书 是 作为 教科 书 来 编写 的 ， 但 仍 有 很 多 来 自 于 工业 界 和 学 术 界 的 读者 。 因 此 ， 


Mi 


我 们 也 从 应 用 角度 和 文献 角度 来 撰写 此 书 。 书 中 提供 了 大 量 的 示例 和 习题 ， 使 得 它 可 以 被 
用 作 教 科 书 。 由 于 大 部 分 推荐 系统 课程 只 涵盖 基础 话题 ， 因 此 有 关 基 础 话题 的 章节 和 算法 
着 重 于 课堂 教学 。 另 一 方面 ， 工 业界 人 员 也 许 发 现 讨 论 上 下 文敏 感 的 推荐 系统 的 章节 很 有 
用 ， 因 为 在 许多 真实 的 应 用 中 会 有 大 量 可 用 的 上 下 文 辅助 信息 。 第 13 章 的 应 用 部 分 是 特 
别 为 工业 界 人 员 编 写 的 ， 不 过 教师 也 许 会 发 现 它 在 推荐 课程 中 也 是 有 用 的 。 

最 后 ,我 们 对 所 使 用 的 符号 进行 简要 的 介绍 。 本 书 中 一 直 使 用 一 个 m Xn 的 评分 矩 
阵 ， 记 为 R， 其 中 m 是 用 户 的 数量 ，n 是 物品 的 数量 。 和 矩阵 R 是 不 完整 的 ， 因 为 只 有 一 部 
分 项 是 已 观测 的 。R 的 第 (i，j;) 项 表示 用 户 i 对 物品 j 的 评分 ， 当 它 是 已 观测 项 时 ， 被 
记 为 ry 。 当 项 G, j) 是 由 推荐 算法 预测 得 到 (而 不 是 用 户 指 定 ) 时 ， 被 记 为 带 “ 帽 子 ” 
符号 〈 即 抑 扬 符号 ) 的 记 ， 表 示 它 是 一 个 预测 的 值 。 向 量 用 “上 划 线 ”来 表示 ， 例 如 X 
Ry. 


致谢 | 


Recommender Systems; The Textbook 





感谢 在 撰 书 期 间 妻 子 和 女儿 给 予 我 的 爱 和 支持 ， 感 谢 父 母 给 我 持续 的 爱 。 

本 书 得 到 了 很 多 人 直接 和 间接 的 帮助 ， 我 很 感激 他 们 。 在 撰写 本 书 时 ， 我 收 到 了 许多 
同事 的 反馈 ， 他 们 是 Xavier Amatriain、Kanishka Bhaduri、Robin Burke, Martin Ester, 
Bart Goethals. Huan Liu, Xia Ning, Saket Sathe、Jiliang Tang, Alexander Tuzhilin、 
Koen Versetrepen 和 Jieping Ye。 感 谢 他 们 所 提供 的 建设 性 反馈 。 这 些 年 来 ,我 从 大 量 合 
作者 那里 受益 良 多 。 这 些 见 解 直 接 或 间接 地 影响 了 本 书 。 首先 感谢 多 年 来 与 我 合作 的 
Philip S. Yu。 其 他 重要 的 合作 者 还 包括 Tarek F. Abdelzaher, Jing Gao、Quanguan Gu, 
Manish Gupta, Jiawei Han, Alexander Hinneburg、Thomas Huang, Nan Li, Huan 
Liu, Ruoming Jin, Daniel Keim, Arijit Khan, Latifur Khan, Mohammad M. Masud, 
Jian Pei, Magda Procopiuc, Guojun Qi, Chandan Reddy, Saket Sathe, Jaideep Srivas- 
tava, Karthik Subbian, Yizhou Sun, Jiliang Tang, Min-Hsuan Tsai, Haixun Wang, 
Jianyong Wang, Min Wang, Joel Wolf, Xifeng Yan, Mohammed Zaki, ChengXiang 
Zhai 和 Peixiang Zhao。 我 也 要 感谢 导师 James B. Orlin 在 早期 对 我 的 指导 。 

还 要 感谢 我 的 经 理 Nagui Halim 在 我 撰写 此 书 时 所 提供 的 巨大 支持 。 他 的 专业 支持 对 
我 过 去 和 现在 的 许多 书 都 起 着 重要 的 作用 ，。 

最 后 ， 感 谢 Lata Aggarwal 用 微软 PowerPoint 软件 帮 有 我 绘制 了 一 些 图 片 。 


| 作者 简介 


Recommender Systems: The Textbook 








Charu C. Aggarwal 是 位 于 纽约 州 约克 城 的 IBM T. J. Wat- 
son 研究 中 心 的 杰出 研究 人 员 (DRSM)。 他 于 1993 年 在 印度 坎 
普尔 理工 学 院 获得 了 学 士 学 位 ，1996 年 在 麻 省 理工 学 院 获 得 了 博 
士 学 位 。 他 对 数据 挖掘 领域 有 着 广泛 的 研究 。 他 在 国际 会 议和 期 
刊 上 发 表 了 300 余 篇 论文 ， 申 请 了 80 余 项 专利 。 他 是 15 本 书 的 
作者 或 编辑 ， 包 括 一 本 数据 挖掘 教材 和 一 本 关于 孤立 点 分 析 的 综 
合 性 著作 。 由 于 他 的 专利 的 商业 价值 ， 他 曾 三 次 被 评 为 IBM 的 
“发 明 大 师 ”(Master Inventor) 。 由 于 提出 了 数据 流 上 的 生物 慌 怖 威胁 检测 技术 ， 他 获得 
了 2003 年 IBM 公司 奖 ; 由 于 在 隐私 技术 上 的 科学 性 贡献 ， 他 获得 了 2008 年 IBM 杰出 创 
新 奖 ; 由 于 在 数据 流 和 高 维 数 据 上 的 研究 工作 ， 他 分 别 于 2009 年 和 2015 年 两 次 获得 了 
IBM 杰出 技术 成 就 奖 。 他 因为 提出 了 基于 冷凝 的 隐私 保护 数据 挖掘 技术 而 获得 了 EDBT 
2014 的 时 间 检 验 奖 。 他 还 于 2015 年 获得 了 IEEE ICDM 研究 贡献 奖 ， 这 是 数据 挖掘 领域 
对 具有 突出 贡献 的 研究 的 两 个 最 高 奖项 之 一 。 

他 曾 担 任 IEEE 大 数据 会 议 (2014) 的 大 会 主席 ，ACM CIKM 会 议 (2015)、IEEE 
ICDM 会 议 (2015) 和 ACM KDD 会 议 (2016) 的 程序 委员 会 主席 。 他 从 2004 年 到 2008 
年 担任 了 《IEEE Transactions on Knowledge and Data Engineering》 的 副 主 编 。 他 是 
«ACM Transactions on Knowledge Discovery from Data》 的 副 主 编 ,，《IEEE Transactions 
on Big Data) ABI 主编 ，《Data Mining and Knowledge Discovery Journal》 的 执行 主编 ， 
«(ACM SIGKDD Explorations) [J Ei, «(Knowledge and Information Systems Journal) fj il 
主编 。 他 在 Springer 的 刊物 《Lecture Notes on Social Networks》 的 咨询 委员 会 任职 。 他 
担任 过 SIAM Activity Group on Data Mining 的 副 主席 。 由 于 在 知识 发 现 和 数据 挖掘 算法 
方面 的 贡献 ， 他 成 为 SIAM、ACM 和 IEEE 的 会 士 。 











H x | 


Recommender Systems: The Textbook 


作者 简介 


第 1 章 ”推荐 系统 概述 
1.1 引言 


1.2 推荐 系统 的 目标 .pp 


1.2.1 推荐 系统 应 用 范围 ……': 


1.3 推荐 系统 的 基本 模型 …………………: 


1.3.2 基于 内 容 的 推荐 系统 core 10 
1.3.3 基于 知识 的 推荐 系统 core 11 
1.3.4 人 口 统计 推荐 系统 13 
1.3.5 混合 集成 的 推荐 系统 cee 14 
1.3.6 对 推荐 系统 的 评价 14 
1.4 ”推荐 系统 领域 特有 的 挑战 ……… 14 
14.1 基于 上 下 文 的 推荐 系统 ……… 14 
1.4.2 时 间 禾 感 的 推荐 系统 evene 15 
1.4.3 基于 位 置 的 推荐 系统 ………… 15 
1.4.4 社交 信息 系统 ee ee 15 
1.5 高 级 论题 和 应 用 pp 16 
1. 5.1 推荐 系统 中 的 冷 启动 问题 …… 17 
1.5.2 抗 攻 击 推荐 系统 ， 17 
1.5.3 组 推荐 系统 :17 
1.5.4 多 标准 推荐 系统 cores 17 
1.5.5 推荐 系统 中 的 主动 学 习 ……… 18 
1.5.6 推荐 系统 中 的 隐私 问题 ……… 18 
1.5.7 应 用 领域 … i 
LE INg eese 18 
1.7 相关 工作 cee ee cee cee eee eee 19 
第 2 章 人 21 
21 38 = 。 21 
2.2 评分 矩阵 的 关键 性 质 22 


2.3 通过 基于 近邻 的 方法 预测 评分 ……… 24 
2.3.1 基于 用 户 的 近 令 模型 vre 24 
2.3.2 基于 物品 的 近邻 模型 severe eee 29 
2.3.3 高 效 的 实现 和 计算 复杂 度 …… 30 
2.3.4 基于 用 户 的 方法 和 基于 物品 的 

方法 的 比较 ee | 
2.3.5 ATERS RIRE pee 32 
2.3.6 基于 用 户 的 方法 和 基于 物品 的 

方法 的 联合 cess cess + 33 

2.4 聚 类 和 基于 近邻 的 方法 33 

2.5 降 维 与 近邻 方法 ppp 34 
2.5.1 处 理 偏差 cece 35 

2.6 近邻 方法 的 回归 模型 视角 …… 38 
2.6.1 基于 用 户 的 最 近邻 回归 ………… 39 
2.6.2 基于 物品 的 最 近邻 回归 ……… 41 
2.6.3 基于 用 户 的 方法 和 基于 物品 的 

方法 的 结合 pp 42 
2.6.4 具有 相似 度 权重 的 联合 

插值 or 4D 
2.6.5 FEHR PERERA oeer 43 

2.7 基于 近邻 方法 的 图 模型 45 
2.7.1 用 户 -物品 图 45 
2.7.2 MP-ĦMP H 47 
2.7.3 物品 -物品 图 49 

2.8 小 缚 150 

2.10 习题 … . 51 

第 3 章 基于 模型 的 协同 过 滤 … 53 

3.1 引言 . 53 

3.2 决策 和 回归 树 eere 55 
3.2.1 将 决策 树 扩 展 到 协同 过 滤 56 

3.3 基于 规则 的 协同 过 滤 ， 57 
3.3.1 将 关联 规则 用 于 协同 过 滤 …… 59 
3.3.2 面向 物品 的 模型 与 面向 用 户 的 


3.4 朴素 贝 叶 斯 协同 过 滤 61 
3.4.1 处 理 过 拟 合 cesses eee 63 
3.4.2 示例 ; 使 用 贝 叶 斯 方法 处 理 

二 元 评分 :， 63 

3.5 将 任意 分 类 模型 当 作 黑 盒 来 处 理 64 
3.5.1 示例 : 使 用 神经 网 络 作为 黑金 

3.6 ”潜在 因子 模型 pp 67 
3.6.1 潜在 因子 模型 的 几何 解释 …… 68 
3.6.2 潜在 因子 模型 的 低 秩 解释 ……: 69 
3.6.3 基本 矩阵 分 解 原理 70 
3.6.4 无 约束 矩阵 分 解 pp 7] 
3. 6.5 奇异 值 分 解 ， -84 
3.6.6 dE EDME pp 88 
3.6.7 理解 给 阵 因 子 分 解 方法 族 … 93 

3.7 集成 因子 分 解 和 近邻 模型 ………… 95 
3.7.1 基准 估计 : 非 个 性 化 偏 倚 

中 心 模型 - a S 
3.7.2 模型 的 近邻 部 分 eene 96 
3.7.3 模型 的 潜在 因子 部 分 ece 97 
3.7.4 集成 近邻 和 潜在 因子 部 分 ……… 97 
3.7.5 求解 优化 模型 98 
3.7.6 关于 精度 的 一 些 观察 eee 98 
3.7.7 将 潜在 因子 模型 集成 到 任意 

3.8 小 结 … ere eeee .99 

3.9 相关 工作 100 

3.10 ”习题 nn。 101 

第 4 章 基于 内 容 的 推荐 系统 ees 103 

4.1 引言 103 

4.2 基于 内 容 的 系统 的 基本 组 件 ……… 104 

4.3” 预 处 理 和 特征 提取 …… s.. 105 
4.3.1 特征 提取 。105 
4.3.2 特征 表示 和 清洗 ……………… 107 
4.3.3 收集 用 户 的 偏好 ereere 108 
4.3.4 监督 特征 选择 和 加 权 ………… 108 

4.4 ”学习 用 户 画 像 和 过 滤 … 111 
4.4.1 BIERZ A eee cee 111 
4.4.2 与 基于 案例 的 推荐 系统 的 


关联 性 112 
4.4.3 MFD scree 173 
4.4.4 基于 规则 的 分 类 器 ………… 115 
4.4.5 FPERRA cee eee eee 117 
4.4.6 其 他 学 习 模 型 和 比较 概述 … 118 
4.4.7 基于 内 容 的 系统 的 解释 oee 118 
4.5 基于 内 容 的 推荐 与 协同 推荐 …… 119 
4.6 将 基于 内 容 的 模型 用 于 协同 
过 滤 esieesseeeseseeeeeeeeeseeaseee 120 
A. Ge FUP BAR one tesies 120 
4.7 小 结 esp weaaenene eb ep dae de e000 121 
4.8 相关 工作 121 
4.9 习题 PT 122 
第 5 章 基于 知识 的 推荐 系统 ees 123 
51 引言 eee saa 123 
5.2 基于 约束 的 推荐 系统 - ”127 
5.2.1 返回 相关 结果 .9 128 
5.2.2 交互 方法 z fa 
5.2.3 排序 匹配 的 物品 …………………** 131 
5. 2.4 处 理 不 可 接受 的 结果 或 
空 集 … 131 
5.2.5 添加 约束 . 132 
5.3 ”基于 案例 的 推荐 系统 ……………… 132 
5.3.1 相似 性 度量 .pp 134 
5. 3.2 批评 方法 .138 
5.3.3 ”批评 的 解释 eo 142 
5.4 ”基于 知识 的 系统 的 持久 个 性 化 … 143 
5.5 ANGE en 。 143 
5.6 相关 工作 。 144 
5.7 习题 ae > 745 


第 6 章 基于 集成 的 混合 推荐 系统 … 


146 


6.1 引言 ee aa WG 
6.2 从 分 类 角度 看 集成 方法 ………… 149 
6.3 加 权 型 混合 系统 … sd JEI 

6.3.1 几 种 模型 组 合 的 方法 eee 153 


6.3.2 对 分 类 中 的 bagging 算法 的 


6.3.3 随机 性 注入 算法 


调整 


6.4 ”切换 型 混合 系统 


* 153 
* 155 


155 


Ml 


6.4.1 为 解决 冷 启动 问题 的 切换 
机 制 156 
6.4.2 桶 模型 156 
6.5 BERRAR eer 156 
6.5.1 推荐 结果 的 逐步 优化 ……………… 157 
6.5.2 boosting 算法 eee cress 157 
6.6 特征 放大 型 混合 系统 ……… 159 
6.7 元 级 型 混合 系统 ereere 159 
6.8 ”特征 组 合 型 混合 系统 …*………… 160 
6.8.1 回归 分 析 和 矩阵 分 解 cree ee eee 161 
6. 8.2 元 级 特征 161 
6. 9 交叉 型 混合 系统 163 
6.10 小 结 es 164 
6.11 |: Ee | Se 164 
6.12 习题 es 166 
第 7 章 PPLA eeren 167 
7.1 引言 167 
7.2 评估 范例 168 
7.2.1 用 户 调查 168 
7.2.2 在 线 评估 169 

7.2.3 使 用 历史 数据 集 进行 离线 
评估 170 
7.3 评估 设计 的 总 体 目标 ， ”了 70 
7.3.1 精确 性 Spo 
7.3.2 覆盖 率 see 398 
7.3.3 置信 度 和 信任 度 e 172 
7.3.4 新 颖 度 -173 
7.3.5 惊喜 度 wees 173 
7.3.6 多 样 性 :174 
7.3.7 健壮 性 和 稳定 性 eee 174 
7.3.8 可 扩展 性 is 174 
7.4 离线 推荐 评估 的 设计 要 点 oes 175 

7.4.1 Netflix Prize 数据 集 的 案例 
研究 e- 175 
7.4.2 为 训练 和 测试 分 解 评 分 ……: 177 
7.4.3 与 分 类 设计 的 比较 ，………… 178 
7.5 离线 评估 的 精确 性 指标 “………… 178 
7.5.1 度量 预测 评分 的 精确 性 一 …… 178 
7.5.2 通过 相关 性 评估 排名 ……… 180 


7.5.3 通过 效用 评估 排名 ov 181 
7.5.4 通过 ROC 曲线 评估 排名 …… 184 
7.5.5 哪 种 排名 方式 最 好 veers 186 
7.6 评估 指标 的 局 限 性 .…………………… 186 
1.6. 1 BAREAN E e 188 
7.7 小 结 cee tee tee e ee eeeeseeee 188 
7.8 相关 工作 188 
79 习题 ， 189 
第 8 章 上 下 文敏 感 的 推荐 系统 …… 191 
8.1 引言 eeeeeee 191 
8.2 多 维 方法 192 
8.2.1 AHERE eee 194 
8.3 上 下 文 预 过 滤 : 一 种 基于 降 维 的 
8.3.1 基于 集成 的 改进 e 198 
8.3.2 多 级 别 的 估计 eee 199 
8.4 后 过 滤 方 法 199 
8.5 上 下 文 建 模 200 
8.5.1 基于 近邻 的 方法 cee eee eee eee 201 
8.5.2 潜在 因子 模型 .9 202 
8.5.3 基于 内 容 的 模型 207 
8.6 小 结 teense cee wen eee ene 209 
8.7 相关 工作 209 
8.8 习题 eee 210 
第 9 章 ”时 间 与 位 置 敏 感 的 推荐 
RA enen 211 
9.1 引言 211 
9.2 REER eee eee 212 
9.2.1 基于 新 近 的 模型 … 213 
9.2.2 处 理 周期 性 上 下 文 eee 215 
9.2.3 将 评分 建 模 为 时 间 的 函数 … 216 
9.3 离散 时 间 模 型 … 220 
9.3.1 马尔 可 夫 模 得。 ee 220 
9.3.2 序列 模式 挖掘 223 
9.4 位置 感知 推荐 系统 …………………… 224 
9.4.1 偏好 位 置 。 225 
9.4.2 旅行 位 置 227 
9.4.3 结合 偏好 位 置 与 旅行 位 置 227 
9.5 小 缚 cee eee eee eee ees cee ene eee 227 


9.6 相关 工作 
9, 7 习题 Saaseeeas ene pes seas sseens eee 


第 10 章 网络 中 的 结构 化 推荐 ………: 
10,1 BIR oe 


10.2 HFR onsi 
10.2.1 PageRank wee 
10.2.2 个 性 化 PageRank *+++++++-+*+ 
10.2.3 基于 近邻 的 方法 应 用 …………。 
1029: @ rmlank Sonibve ms 
10.2.5 搜索 与 推荐 的 关系 ………… 

10. 3 使 用 集合 分 类 的 推荐 
10.3.1 迭代 分 类 算法 
10.3.2 使 用 随机 游 走 的 标签 传播 … 
10.3.3 社交 网 络 中 协同 过 滤 的 

EAE- 
10.4 推荐 好 友 : 链接 预测 


10.4.1 基于 近邻 的 方法 
10. 4.2 Katz 度量 eee een eee eee wer eeeees 
10.4.3 基于 随机 游 走 的 度量 ……… 
10. 4.4 作为 分 类 问题 的 链接 

预测 eee eee ee 
10.4.5 FEAR FRM) k KB PED AB ove ee ee 
10.4.6 链接 预测 和 协同 过 滤 的 

10.5 社会 影响 力 分 析 和 病毒 式 


10. 5.1 线性 阅 值 模型 

10. 5.2 独立 级 联 模 型 

10.5.3 影响 力 函 数 评估 

10. 5.4 社交 流 中 的 目标 影响 力 分 析 
10.6 小 结 ……… 


10:7 METH 。oseersreaeeansoseaeesraes 
10.8 习题 ………… 


第 11 章 社交 和 以 信任 为 中 心 的 推荐 
系统 … 
11.1 引言 


11.2 社交 上 下 文 的 多 维 模型 ………: 
11.3 以 网 络 为 中 心 的 方法 和 以 信任 为 


* 253 


* 258 


中 心 的 方法 cet re eect eee ree cee eee eee 
11.3.1 收集 数据 来 建立 信任 
11.3.2 信任 的 传播 和 聚合 。……… 
11.3.3 没有 信任 传播 的 简单 推荐 '… 
11.3.4 TidalTrust 算法 
1 MoleTrust Pikes 
11.3.6 信任 游 走 算法 
11.3.7 链接 预测 法 cee cee eee eee eee eee 
11.3.8 ESR ， 

11.3.9 社交 推荐 系统 的 优点 ………… 
11. 4 社交 推荐 系统 中 的 用 户 交互 …… 
1.4.1 大 众 分 类 法 的 代表 eee 
11.4.2 社会 性 标签 系统 中 的 协同 
11.4.3 选择 有 价值 的 标签 ………… 
11.4.4 无 评分 算 阵 的 社会 性 标签 
推荐 
11.4.5 使 用 评分 矩阵 的 社会 性 标签 
11.5 ANGE ae。 
11.6 相关 工作 soma 
ILZ J esasen oss ceases ssns 
第 12 章 抵抗 攻击 的 推荐 系统 … 
12.1 引言 ” 
12.2 对 攻击 模型 中 的 权衡 的 理解 ……' 
12.2.1 量化 攻击 的 影响 
12.3 “攻击 类 型 ， 
12.3.1 PR PU ge renin ms 
ee te ere 
12.3.3 bandwagon 攻击 
a ae eS eee ee 
12.3.5 S/H ap eee 
12.3.6 Bé bandwagon 攻击 
12.3.7 探测 攻击 ee 
123.8 DARE eani 
12.3.9 RAAB A IEE HY AR e 


12.4 探测 推荐 系统 中 的 攻击 … 


12. 4.1 


单 体 攻击 画像 的 探测 ……… 


259 


262 


”276 


W 


12.4.2 群体 攻击 画像 的 探测 ………: 
* 301 


12.5 健壮 推荐 设计 策略 
12.5.1 用 CAPTCHA 防止 自动 
攻击 aa 
12.5.2 4 FPREB AEE cor eeceee cones 


12.6 小 结 | 
12..7 相关 工作 viaje OMe ace 


12.8 习题 Fee cee ee eee cee wae een see ees ceseee 


第 13 章 ”推荐 系统 高 级 主题 … 
13.1 引言 
13.2 排名 学 习 ereen 
13.2.1 成 对 排名 学 习 
13. 2.2 列表 排名 学 习 
13.2.3 与 其 他 领域 中 排名 学 习 方 法 


的 比较 Soros ere sss 


13. 3 多 辟 赌 博 机 算法 …… 
13;3:1 PRR Me eee 
13.3.2 贪心 算法 


fo ME PR ee 


13.4 组 推荐 系统 oii 


300 


- 302 
+ 302 
12.5.3 设计 健壮 的 推荐 算法 .…….…: 


302 


307 


13.4.1 协同 和 基于 内 容 的 系统 …… 
13.4.2 基于 知识 的 系统 
13.5 多 标准 推荐 系统 
13.5.1 基于 近邻 的 方法 
13.5.2 基于 集成 的 方法 
13.5.3 无 整体 评分 的 多 标准 系统 … 
13.6 推荐 系统 中 的 主动 学 习 .……………: 
13.6.1 基于 异 质 性 的 模型 creer eee 
13.6.2 基于 性 能 的 模型 
13.7 推荐 系统 中 的 隐私 
13.7.1 基于 冷凝 的 隐私 
13.7.2 高 维 数据 的 挑战 
13.8 一 些 有 趣 的 应 用 领域 
13.8.1 门户 内 容 个 性 化 
13.8.2 计算 广告 与 推荐 系统 …………。 


13.8.3 互惠 推荐 系统 
13.9 小 结 … 


13.10 相关 工作 


参考 文献 
索引 


sess 317 
.... 317 


..... 322 
** 322 


* 323 


* 332 


* 368 


| 第 工 章 


Recommender Systems; The Textbook 


推荐 系统 概述 





很 多 人 获得 过 建议 ， 却 只 有 智者 从 中 获 益 。 





Harper Lee 


1.1 引言 


作为 电子 和 商务 交易 的 媒介 ，Web 如 今 扮 演 着 越 来 越 重要 的 角色 并 推动 了 推荐 系统 技 
术 的 发 展 。 其 中 一 个 重要 的 作用 是 能 够 让 用 户 轻 松 地 提供 他 喜欢 或 不 喜欢 的 反馈 。 例 如 ， 
Netflix 〈 一 家 在 线 影片 租赁 提供 商 ) 的 用 户 只 需要 简单 地 动 动 鼠标 就 能 提供 反馈 。 评 分 是 
一 种 提供 反馈 的 典型 方法 ， 在 某 个 特定 的 评分 系统 (例如 五 星 评分 系统 ) 中 ， 用 户 可 以 选 
择 不 同 大 小 的 数值 来 说 明 自 己 对 不 同 物品 的 满意 程度 。 

其 他 形式 的 反馈 不 像 评 分 一 样 清晰 明了 ， 但 却 更 容易 采集 。 例 如 ， 可 将 用 户 在 网 上 购 
买 或 是 浏览 一 件 物品 的 行为 视 为 对 该 物品 的 认可 。 获 取 这 类 反馈 形式 的 数据 十 分 容易 ， 这 
种 方法 被 Amazon. com 等 网 上 商家 广泛 采用 。 推 荐 系统 的 基本 思想 是 利用 这 些 不 同 来 源 的 
数据 来 推断 顾客 的 喜好 。 推 荐 系统 面向 的 对 象 称 为 用 户 〈user)， 推 荐 的 产品 称 为 物品 
(item)。 由 于 用 户 曾 经 的 兴趣 喜好 通常 预示 着 未 来 的 选择 ， 因 此 推荐 分 析 也 通常 是 基于 先 
前 用 户 与 物品 之 间 的 关系 。 但 仍 有 一 个 特例 一 一 基于 知识 的 推荐 系统 是 根据 用 户 指定 需求 
而 非 用 户 的 历史 记录 进行 推荐 。 

那么 ， 推 荐 算法 背后 隐藏 着 什么 基本 原则 呢 ? 以 用 户 为 中 心 的 活动 和 以 物品 为 中 心 的 
活动 之 间 存 在 着 显著 的 依赖 关系 。 例 如 ， 对 一 个 喜欢 看 历史 纪录 片 的 人 来 说 ， 与 动作 片 相 
比 他 更 会 对 其 他 历史 纪录 片 或 者 教育 片 感 兴趣 。 在 很 多 情况 下 ， 不 同类 别 的 物品 可 能 显示 
出 明显 的 相关 性 ， 可 以 利用 这 一 点 做 出 更 精确 的 推荐 。 此 外 ， 这 种 关联 可 能 表现 在 个 别 物 
品 上 而 不 是 一 类 物品 上 。 这 些 关 联 可 以 用 数据 驱动 方式 从 评分 和 矩阵 中 学 习 (learn) 得 到 ， 
产生 的 模型 可 用 来 预测 目标 用 户 的 行为 。 单 个 用 户 评 过 分 数 的 物品 数量 越 多 ， 对 其 做 出 准 
确 预 测 就 越 容易 。 对 目标 用 户 行为 进行 预测 的 学 习 模 型 有 很 多 种 。 例 如 ， 大 量 用 户 的 购买 
信息 或 评分 行为 可 以 用 于 对 用 户 的 聚 类 ， 使 得 对 相似 产品 感 兴趣 的 用 户 被 归 为 一 组 。 同 类 
群体 的 爱好 与 行为 可 以 用 来 为 组 内 个 体 做 推荐 。 

上 面 描 述 的 方法 是 基于 一 类 非常 简单 的 推荐 算法 一 一 近邻 模型 (neighborhood model) 。 
这 类 算法 还 属于 更 大 的 一 类 算法 模型 一 一 协同 过 滤 (collaborative filtering)。“ 协 同 过 滤 ” 
是 指 协同 处 理 大量 用 户 的 评分 来 预测 遗失 的 评分 。 实 际 上 ， 推 荐 系统 可 以 变 得 更 复杂 ， 
据 更 丰富 并 包含 大 量 的 附加 数据 类 型 。 例 如 ， 在 基于 内 容 的 推荐 系统 中 ， 用 户 的 评分 和 物 
品 的 描述 信息 被 用 来 做 预测 。 其 基本 思想 是 根据 其 用 户 以 往 评 价 过 或 访问 过 的 物品 属性 
(attribute) 对 用 户 的 兴趣 建 模 。 另 一 种 推荐 系统 是 基于 知识 的 系统 (knowledge-based 
system)， 用 户 先 阐明 他 们 的 兴趣 ， 系 统 结合 用 户 的 兴趣 和 相关 领域 知识 来 做 推荐 。 在 更 
高 级 的 模型 中 ， 上 下 文 数据 ， 例 如 时 间 信息 、 外 部 知识 、 位 置信 息 、 社 交 信 息 或 是 网 络 信 
息 等 都 可 能 被 用 于 预测 。 

本 书 将 会 讲述 所 有 基本 类 型 的 推荐 系统 ， 包 括 协同 系统 、 基 于 内 容 的 系统 和 基于 知识 
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的 系统 。 我 们 还 将 探讨 在 不 同 领域 推荐 系统 的 基础 模型 与 高 级 模型 ， 学 习 推 荐 系统 健壮 
性 的 各 个 方面 ， 例 如 攻击 模型 、 可 信赖 模型 。 此 外 ， 还 会 介绍 推荐 系统 的 多 种 评价 模型 
和 混合 模型 。 本 章 是 对 推荐 系统 领域 各 类 工作 的 概述 并 将 各 种 话题 与 本 书 各 个 章节 关联 
起 来 。 

本 章 内 容 安排 如 下 : 1. 2 节 探 讨 推荐 系统 的 主要 目标 ; 1. 3 节 介 绍 推荐 系统 中 用 到 的 
基础 模型 与 评价 方法 ; 1.4 节 讨论 推荐 系统 在 不 同 领域 的 应 用 ;1.5 节 讲 述 推荐 系统 的 高 
级 模型 ; 1. 6 节 是 本 章 的 小 结 。 


1.2 推荐 系统 的 目标 


在 讨论 推荐 系统 的 目标 之 前 ， 我 们 先 介绍 推荐 问题 的 几 种 不 同 表 述 方式 。 下 面 是 两 种 
主要 的 模型 ; 

D 预测 模型 : 第 一 种 方法 是 对 用 户 - 物 品 组 合 的 评分 值 进行 预测 。 该 方法 假设 描述 用 
户 对 物品 喜好 的 训练 数据 是 可 用 的 。 对 于 m 个 用 户 和 件 物品 ， 这 个 训练 集 相 当 于 一 个 
mXn 的 不 完全 和 矩阵， 矩阵 中 的 已 知 值 (或 观测 值 ) 被 用 来 训练 。 和 矩阵 中 的 缺失 值 (或 未 
观测 值 ) 则 通过 这 个 训练 模型 进行 预测 。 因 为 是 根据 不 完整 的 数值 矩阵 用 学 习 算 法 预测 出 
剩余 的 未 知 值 ， 所 以 这 个 问题 又 被 称 作 矩 阵 补 全 问题 。 

2) 排名 模型 : 实际 上 ， 对 用 户 做 推荐 并 不 需要 预测 出 用 户 对 具体 物品 的 评分 。 商 家 
可 能 希望 向 特定 的 用 户 推荐 前 & 种 (top-&) 物品 或 者 是 为 某 个 指定 物品 确定 前 个 
(top-k) 感 兴趣 的 用 户 。 虽 然 这 两 种 算法 极其 类 似 ， 但 是 对 top-& 物品 的 计算 比 确定 top-k 
用 户 要 应 用 普遍 ， 因 此 本 书 中 我 们 只 讨论 对 top-k 物品 的 计算 。 这 个 问题 也 被 叫 作 top-k 
推荐 问题 ， 它 是 推荐 问题 的 排名 模型 。 

在 第 二 种 情况 下 ， 对 评分 的 准确 值 的 预测 并 不 重要 。 由 于 排名 模型 可 以 由 第 一 种 预测 
模型 得 出 结果 后 再 排序 得 到 ， 所 以 第 一 种 模型 的 使 用 更 加 普遍 。 但 是 在 很 多 情况 下 ， 直 接 
设计 算法 解决 排名 问题 更 加 自然 ， 也 更 加 简单 。 这 类 方法 会 在 第 13 章 中 讲 到 。 

推荐 系统 毕竟 是 商家 用 来 提高 利润 的 ， 所 以 其 主要 目的 是 增加 产品 销量 。 通 过 把 仔细 
筛选 后 的 物品 推荐 给 用 户 ， 推 荐 系统 能 使 相关 物品 得 到 用 户 的 关注 ， 从 而 达到 增加 销量 、 
提高 利润 的 目的 。 尽 管 主要 目的 是 盈利 ,但 要 实现 其 功能 ， 方法 并 不 是 所 想 的 那么 直观 。 
为 了 实现 商业 性 一 利 ， 一般 推 荐 系统 操作 上 和 技术 上 的 目标 如 下 : 

1) 相关 性 : 推荐 系统 最 重要 的 操作 目标 是 推荐 与 用 户 相 关 的 物品 。 用 户 更 可 能 消费 
那些 他 们 觉得 有 趣 的 物品 。 尽 管 相关 性 是 推荐 系统 的 主要 操作 目标 ,但 并 不 充分 。 因 此 ， 
我 们 下 面 会 讨论 一 些 不 如 相关 性 重要 但 仍 具 有 很 大 影响 力 的 其 他 操作 目标 。 

2) 新 颖 性 : 如 果 所 推荐 的 物品 是 用 户 从 没 见 过 的 ， 那 么 推荐 系统 确实 很 有 用 。 例 如 ， 


用 户 喜欢 类 型 的 流行 电影 很 少 会 让 用 户 眼前 一 亮 。 反 复 推荐 受 欢迎 的 物品 也 可 能 导致 销售 


的 多 样 性 降低 [2%3]，。 

D 意外 性 : 意外 性 是 指 所 推荐 的 物品 出 乎 意料 ”3]。 幸 运 的 发 现 相 比 于 明显 的 建议 
要 温和 得 多 。 意 外 性 不 同 于 新 颖 性 的 地 方 在 于 其 能 真正 让 用 户 感到 惊喜 ， 而 不 是 简单 地 推 
荐 一 些 之 前 没 见 过 的 东西 。 通 常情 况 下 ， 用 户 可 能 只 是 消费 一 类 特定 的 物品 ， 然 而 并 不 排 
除 同 时 存在 着 使 他 们 惊喜 的 物品 。 和 新 颖 性 不 同 ， 意 外 性 注重 于 发 现 这 类 推荐 物品 。 

例如 ， 如 果 隔 壁 新 开 了 一 家 印度 菜馆 ， 推 荐 给 一 个 平常 就 吃 印度 菜 的 顾客 ， 他 大 概 只 
会 觉得 新 颖 而 不 一 定 恢 喜 。 另 一 方面 ， 同 样 是 这 名 顾客 ， 如 果 向 他 推荐 埃塞俄比亚 菜 ， 尝 
试 之 前 ， 这 名 顾客 并 不 知道 是 否 喜欢 这 种 食物 ， 这 种 推荐 就 是 意料 之 外 的 。 意 外 性 除了 有 
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着 增加 销售 多 样 性 的 作用 ， 还 可 能 引起 用 户 新 的 兴趣 。 对 商家 来 讲 增加 推荐 的 意外 性 有 着 
长 远 、 策 略 性 的 好 处 。 此 外 ， 意 外 性 推荐 算法 倾向 于 推荐 与 用 户 兴趣 不 相关 的 物品 。 很 多 
情况 下 ， 这 种 做 法 的 长 远 好 处 要 大 于 短期 不 足 。 

4) 提高 推荐 的 多 样 性 : 推荐 系统 通常 列 出 一 个 物品 的 top-k 推荐 列表 。 当 所 有 推荐 
的 物品 都 非常 相似 时 ， 用 户 一 个 都 不 喜欢 的 风险 也 随 之 而 来 。 另 一 方面 ， 当 推荐 列表 包含 
不 同类 型 的 物品 时 ， 用 户 在 这 些 物品 中 至 少 看 上 一 个 的 可 能 性 就 变 得 很 大 。 多 样 性 确保 用 
户 不 会 对 相似 的 物品 反复 推荐 感到 厌烦 。 l 

从 用 户 和 商家 的 角度 来 看 ， 通 过 推荐 不 但 实现 了 这 些 具体 的 目标 ， 也 实现 了 一 些 隐 性 
目标 。 从 用 户 的 角度 来 看 ， 推 荐 有 助 于 提高 用 户 对 网 站 的 满意 度 。 例如， 一 个 常常 从 
Amazon. com 收 到 相关 推荐 的 用 户 会 感到 满意 并 更 倾向 于 再 次 使 用 Amazon. com 购物 。 这 
一 举动 可 以 提升 用 户 的 忠诚 度 ， 并 进一步 增加 网 站 未 来 的 销售 额 。 对 于 商家 ， 通 过 推荐 可 
以 洞察 用 户 的 需求 ， 并 有 助 于 进一步 改善 用 户 体 验 。 最 后 ， 向 用 户 解 释 为 什么 向 他 推荐 这 
些 物 品 通 常 很 有 用。 拿 Netflix 来 说 ， 推 荐 内 容 常 常 和 先前 看 过 的 电影 一 起 呈现 给 用 户 。 
我 们 之 后 将 看 到 一 些 比 其 他 算法 更 适合 于 提供 解释 的 推荐 算法 。 

推荐 系统 推荐 的 产品 类 型 非常 多 样 化 。 一 些 推荐 系统 如 Facebook ( 脸 书 网 ) 不 直接 
推荐 产品 ， 它 们 会 通过 推荐 社交 关系 间接 增加 网 站 的 易 用 性 和 广告 收入 。 为 了 了 人 解 这 些 目 
标的 本 质 ， 我 们 将 讨论 历史 上 和 当今 的 一 些 推 荐 系统 实例 。 这 些 例 子 也 将 展示 推荐 系统 无 
论 是 作为 研究 原型 ， 还 是 用 于 今天 为 商业 系统 解决 问题 ， 都 具有 广泛 的 多 样 性 。 

GroupLens 推荐 系统 

GroupLens 是 推荐 系统 领域 的 先驱 ， 它 是 Usenet 新 闻 的 推荐 研究 原型 。 该 系统 从 
Usenet 网 站 收集 用 户 评分 并 用 它们 来 预测 在 读 一 篇 文章 前 其 他 读者 是 否 会 喜欢 这 篇 文章 。 
一 些 最 早 的 自动 协同 过 滤 算 法 在 GroupLensS 下 发 展 起 来 。 这 种 开发 的 一 般 思路 也 扩展 到 
其 他 产品 中 ， 例 如 书籍 和 电影 等 产品 。 相 应 的 推荐 系统 分 别 被 称 为 BookLens 和 Mov- 
ieLens。 除 了 对 协同 过 滤 研 究 做 出 的 开创 性 贡献 外 ，GroupLens 研究 小 组 也 因 发 布 多 个 数 
据 集 而 闻名 ， 这 是 因为 这 个 领域 的 标准 数据 集 在 早 些 年 很 难 获取 。 突 出 的 例子 包括 三 个 从 
MovieLens 推荐 系统 中 得 到 的 数据 集 [885] 。 这 些 数据 集 的 规模 依次 增加 ， 分 别 包含 105 、 
106 和 107 让 评分。 

Amazon. com 推荐 系统 

Amazon. com[e9 引 是 推荐 系统 领域 在 商业 界 的 一 大 先驱 。 早 年 ， 它 是 为 数 不 多 的 有 远 
见地 实现 这 项 技术 的 零售 商 。Amazon. com 最 初 作 为 书籍 的 网 上 零售 商 而 创立 ， 如 今 销售 
几乎 所 有 形式 的 产品 ， 例 如 书籍 、CD、 软 件 、 电 器 等 。Amazon. com 上 的 推荐 是 根据 明 
确 的 评分 、 购 买 行为 和 浏览 行为 给 出 的 。Amazon. com 的 评分 为 5 星 制 ， 最 差 1 星 ， 最 好 
5 星 。 当 用 户 用 Amazon. com 账号 登录 后 ， 详 细 的 购买 和 浏览 数据 很 容易 收集 。 无 论 访客 
是 否 登录 ，Amazon. com 的 首页 总 会 有 推荐 信息 。 在 多 数 情况 下 ，Amazon. com 会 给 出 推 
荐 物品 的 理由 。 例 如 ， 推 荐 物品 和 先前 购买 过 的 物品 的 关系 可 能 会 在 推荐 面板 里 出 现 。 

相 较 于 需要 用 户 指 定 的 具体 评分 而 言 ， 用 户 的 购买 或 浏览 行为 可 以 被 视 为 隐 式 评分 。 
许多 商业 系统 允许 把 推荐 建立 在 显 式 和 隐 式 反馈 基础 上 上。 事实 上 ， 已 经 有 若干 推荐 模型 同 
时 考虑 了 显 式 反馈 和 隐 式 反馈 (第 3 章 3.6.4.6 节 )。[360] 中 讨论 了 一 些 使 用 Amazon. com 





© “GroupLens” 指 的 是 发 明 这 些 算法 的 明尼苏达 大 学 的 学 术 小 组 [687] 。 该 组 对 推荐 系统 领域 的 研究 工作 仍 在 继 
续 ， 而且 这 些 年 他 们 在 该 领域 做 出 了 许多 开创 性 的 贡献 。 
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早期 版 本 算法 的 推荐 系统 。 

Netflix 电影 推荐 系统 

Netflix 刚 创 建 时 是 邮购 数字 化 电影 和 电视 节目 视频 光盘 (DVD) 的 租赁 公司 [680] ， 最 
终 扩大 到 流 发 送 (streaming delivery) 领域 。 目 前 ，Netflix 的 主要 业务 是 向 已 订阅 用 户 提 
供电 影 和 电视 节目 的 流 发 送 。Netflix 让 用 户 能 在 5 分 范围 内 对 电影 和 电视 节目 进行 评价 。 
此 外 ， 在 浏览 各 种 物品 时 ， 用 户 行为 也 被 Netflix 存储 起 来 。 这 些 评价 和 行为 接着 被 用 来 
做 出 推荐 。Netflix 在 对 推荐 物品 提供 解释 时 表现 出 色 。 它 明确 给 出 基于 用 户 浏览 过 的 具 
体 物 品 的 推荐 样 例 。 这 为 用 户 决 定 是 否 观 影 提供 了 额外 的 信息 。 阐明 推荐 理由 有 助 于 用 户 
理解 为 什么 系统 判断 他 可 能 会 对 推荐 的 影片 产生 兴趣 。 这 种 方法 使 用 户 更 容易 对 推荐 内 容 
做 出 回应 并 且 大 大 提升 用 户 体验 。 这 类 有 趣 的 方法 能 帮助 提升 用 户 的 忠诚 度 并 留 住 用 户 。 

Netflix 对 推荐 系统 研究 团体 的 主要 贡献 是 举办 Netflix 大 奖 赛 。 大 赛 旨 在 为 不 同 参赛 者 
的 协同 过 滤 算 法 提供 比较 的 平台 。Netflix 发 布 了 一 个 Netflix 电影 评分 数据 集 ， 任 务 是 预测 
特定 用 户 -= 物 品 组 合 的 评分 。 为 此 ，Netflix 给 出 一 个 训练 (training) 数据 集 和 一 个 评估 
(qualifying) 数据 集 。 训 练 数据 集 包 含 了 480 189 个 用 户 给 17 770 部 电影 的 100 480 507 个 评 
分 。 该 训练 集 包 含 了 一 个 较 小 的 探测 集 (probe set) ， 该 探测 集 具 有 1 408 395 个 评分 。 探 
测 集 相 比 于 训练 集 具有 更 近 的 评分 数据 ， 并 且 它 的 统计 特性 和 隐藏 评分 的 数据 集 ( 即 评估 
数据 集 ) 相似 。 评 佑 数据 集 包 含 2 817 131 个 形式 为 “用 户 ， 电 影 ， 评 分 日 期 的 三 元 组 。 
值得 注意 的 是 ， 三 元 组 中 并 没有 包含 实际 的 评分 ， 实 际 评分 只 有 裁判 才 知 道 。 选 手 需要 在 
训练 数据 模型 的 基础 上 预测 评估 数据 集 的 评分 。 预 测 结果 由 裁判 〈 或 等 效 的 自动 评分 系 
统 ) 打分 。 在 排行 榜 上 会 告知 选手 其 算法 在 某 一 半 评 估 数 据 集 上 的 预测 结果 。 这 一 半 评 估 
数据 集 被 称 作 评测 集 (quiz set) 。 剩 下 的 一 半 评 估 数 据 集 称 为 测试 集 (test set) 并 用 作 计 
算 最 终结 果 和 决定 获胜 选手 。 直 到 最 后 ， 选 手 也 不 知道 评估 数据 集中 哪些 数据 属于 评测 集 
哪些 属于 测试 集 。 这 种 对 测试 集 的 不 寻常 的 安排 是 为 了 确保 选手 不 会 利用 排行 榜 上 的 分 数 
让 算法 过 拟 合 测试 集 从 而 提高 得 分 。 过 拟 合 相关 的 问题 将 在 第 7 章 讨 论 。 的 确 ，Netflix 处 
理 算法 竞赛 的 架构 是 评价 推荐 算法 的 榜样 。 

探测 集 、 评 测 集 和 测试 集 被 设计 为 有 相似 的 统计 特性 。 如 果 选 手 的 算法 能 改进 Netflix 
自身 推荐 算法 ， 例 如 著名 的 Cinematch， 或 是 得 分 刷新 先前 的 最 高 分 纪录 ， 则 将 予以 奖励 。 
许多 知名 的 推荐 算法 ， 如 潜在 因子 模型 ， 就 是 通过 Netflix 竞赛 而 得 到 推广 的 。Netflix 大 
奖 赛 因为 对 推荐 算法 [57143733 做 出 巨大 贡献 而 闻名 。 

Google 个 性 化 新 闻 系 统 

Google (谷歌 ) 的 个 性 化 新 闻 系 统 .和 能够 基于 用 户 的 历史 浏览 记录 向 他 们 推荐 新 
闻 。 根 据 用 户 所 登录 的 Gmail 账户 ,浏览 记录 可 以 与 指定 的 用 户 相关 联 。 在 这 种 情况 下 ， 
新 闻 文 章 被 视 为 物品 。 用 户 点 击 一 个 新 闻 文 章 的 行为 可 以 被 看 作对 这 篇 文章 的 积极 评分 。 
这 样 的 评分 方式 可 以 被 视 为 一 元 的 评分 (unary rating)， 即 用 户 只 能 表达 自己 对 某 件 物 品 
的 喜爱 而 不 能 表达 是 否 厌恶 的 评分 机 制 。 此 外 ， 因 为 是 从 用 户 的 行为 中 推断 出 来 而 不 是 由 
用 户 明确 说 明 ， 所 以 这 种 评分 是 隐 式 的 。 尽 管 如 此 ， 这 种 方法 的 变 体 也 可 以 应 用 于 明确 给 
出 评分 的 情况 。 协 同 推荐 算法 可 用 于 收集 评分 ， 因 此 其 结果 可 用 于 对 指定 用 户 进 行 个 性 化 
文章 推荐 。 谷歌 新 闻 协 同 过 滤 系 统 的 描述 在 [175]」 中 给 出 。 谷 歌 的 新 闻 个 性 化 引 警 的 更 
多 细节 在 第 13 章 13. 8. 1. 2 节 讨 论 。 

Facebook 好 友 推 荐 

为 了 增加 网 站 的 社交 关系 量 , 社交 网 站 经 常 向 用 户 推 荐 潜在 的 好 友 。Facebook (fe 
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网 )5s9 就 是 这 样 的 一 个 社交 网 站 。 这 种 推荐 与 推荐 产品 的 目的 稍 有 不 同 。 产 品 推荐 能 通 
过 促进 产品 销售 直接 增加 商家 利润 ， 而 社交 关系 数量 的 增加 会 改善 社交 网 络 中 用 户 的 体 
验 ， 从 而 促进 社交 网 络 的 发 展 。 社 交 网 络 靠 的 是 网 络 规模 、 知 名 度 的 提高 而 增加 广告 收 
入。 因此 ， 推 荐 潜在 的 朋友 (或 链接 )， 有 助 于 社交 网 站 更 好 地 发 展 。 这 个 问题 在 社交 网 
络 分 析 领 域 也 被 称 为 链接 预测 dink prediction) 。 这 种 形式 的 建议 是 基于 结构 关系 ， 而 不 
是 评分 数据 。 因 此 ， 其 算法 的 本 质 也 是 完全 不 同 的 。 在 第 10 章 中 详细 探讨 了 链接 推荐 问 
题 。 第 13 章 讨 论 了 计算 广告 学 与 推荐 系统 技术 的 关系 。 


1.2.1 推荐 系统 应 用 范围 


接 下 来 ， 我 们 将 给 出 不 同 推荐 系统 中 实际 应 用 目标 的 概述 。 各 个 推荐 系统 所 推荐 的 产 
品 和 目标 如 表 1-1 所 示 。 大 多 数 推荐 系统 都 集中 于 传统 的 电子 商务 应 用 ， 推 荐 包括 书籍 、 
电影 、 视 频 、 旅 行 、 其 他 产品 和 服务 。[530] 讨论 了 推荐 系统 在 电子 商务 领域 更 广泛 的 应 
用 。 然 而 ， 推 荐 系统 已 经 超越 了 传统 的 产品 推荐 领域 。 值 得 注意 的 是 ， 表 1-1 中 的 一 些 系 
统 不 推荐 具体 的 产品 。 比 如 Google Search 应 用 程序 ， 可 以 与 搜索 结果 一 同 打出 产品 广告 。 
这 就 涉及 计算 广告 学 ， 这 是 一 个 完全 不 同 的 领域 ， 但 毋庸 置疑 的 是 它 与 推荐 系统 密切 相 
关 。 这 方面 内 容 会 在 第 13 章 13. 8. 2 节 中 详细 讨论 。 同 样 ， 脸 书 网 推荐 朋友 ， 在 线 招聘 网 
站 向 雇主 和 求职 者 推荐 披 此。 在线 招聘 网 系统 也 被 称 作 相互 推荐 系统 。 其 中 一 些 推荐 算法 
的 模型 与 传统 的 推荐 系统 大 不 相同 。 这 本 书 将 仔细 研究 这 些 区 别 。 


表 1-1 现实 中 不 同 推荐 系统 推荐 产品 的 样 例 
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Amazon, com! 681 书籍 和 其 他 产品 Google Search!®°*1 广告 
Netflix[s9o] DVD， 视 频 流 Facebookts911 朋友 ， 广 告 
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last. fmnf[592] 音乐 IMDbte99] 电影 
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1.3 推荐 系统 的 基本 模型 


推荐 系统 的 基本 模型 处 理 两 种 数据 : (i) 用 户 - 物 品 之 间 的 相互 关系 ， 比 如 评分 或 是 
购买 行为 ; GD 用 户 和 物品 的 属性 信息 ， 例 如 文本 画像 或 是 相关 关键 词 。 用 到 前 一 种 数据 
的 方法 叫 作 协同 过 滤 法 ， 用 到 后 一 种 数据 的 方法 叫 作 基于 内 容 的 推荐 方法 。 基 于 内 容 的 推 
荐 方法 尽管 一 般 着 重 于 个 体 而 不 是 大 众 的 信息 ， 但 大 多 数 情况 下 仍然 会 用 到 评分 矩阵 。 在 
基于 知识 的 推荐 系统 中 ， 推 荐 内 容 是 基于 用 户 提 出 的 明确 说 明 。 基 于 知识 的 推荐 系统 不 是 
根据 以 往 的 评分 信息 或 购买 数据 进行 推荐 ， 而 是 利用 外 部 知识 库 和 约束 为 用 户 推荐 。 一 些 
推荐 系统 结合 这 些 不 同 的 方面 构建 出 混合 系统 。 混 合 系 统 可 以 综合 各 种 推荐 系统 的 长 处 ， 
从 而 能 良好 地 适用 于 各 种 环境 。 接 下 来 我 们 将 大 致 地 讨论 这 些 基 础 模型 ， 同 时 给 出 详细 讨 

论 这 些 模型 的 相关 章节 。 


1.3.1 协同 过 滤 模 型 
协同 过 滤 模 型 通过 对 大 量 用 户 给 出 的 评分 协同 处 理 给 出 推荐 。 设 计 这 种 模型 的 主要 挑 
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战 是 底层 评分 矩阵 是 稀 羽 的 。 例 如 在 某 个 用 户 可 以 具体 给 出 评分 表达 自己 喜爱 程度 的 观 影 
APP 中 ， 大 多 数 用 户 可 能 只 看 了 浩如烟海 的 众多 影片 中 的 一 小 部 分 。 因 此 评分 大 多 是 未 
知 的 。 已 知 的 评分 也 叫 作 已 观测 的 评分 。 本 书 中 , “已 知 的 ”和 “已 观测 的 ”这 两 个 术语 
可 互 换 ， 未知 的 评分 被 称 作 “未 观测 的 ”或 “缺失 的 ”。 

由 于 已 知 评分 常常 是 与 用 户 和 物品 密切 相关 的 ， 因 此 协同 过 滤 法 的 基本 思想 是 由 已 知 
评分 估计 未 知 评分 。 例 如 ， 有 两 个 用 户 分 别 叫 Alice 和 Bob， 他 们 具有 相似 品味 。 当 两 人 
都 给 出 具体 评分 时 ， 给 出 的 评分 应 当 是 十 分 相似 的 ， 这 种 相似 度 可 以 被 底层 算法 检测 出 
来 。 在 这 种 情况 下 ， 对 某 个 物品 ， 两 人 中 如 果 仅 有 一 人 做 出 了 评分 ， 另 一 个 人 的 评分 可 能 
与 该 评分 十 分 接近 。 多 数 协同 过 滤 模型 着 重 于 借助 物品 之 间或 是 用 户 之 间 内 在 的 关联 性 做 
出 预测 ， 还 有 些 模型 两 者 都 考虑 了 。 更 进一步 ， 部 分 模型 采用 经 过 仔细 设计 的 优化 算法 来 
创建 训练 模型 (与 分 类 器 从 已 标记 数据 建立 训练 模型 类 似 )。 然 后 这 个 模型 被 用 来 佑 计算 
阵 中 缺失 的 值 。 有 两 种 方法 在 协同 过 滤 算 法 中 经 常用 到 : 基于 记忆 的 方法 以 及 基于 模型 的 
FH. 

1) 基于 记忆 的 方法 : 基于 记忆 的 方法 也 被 称 为 基于 近邻 的 协同 过 滤 算 法 。 这 是 最 早 
的 协同 过 滤 算 法 之 一 ， 其 中 用 户 - 物 品 组 合 的 评分 是 在 “近邻 ”的 基础 上 进行 预测 。 这 些 
“近邻 ”可 以 用 以 下 两 种 方式 之 一 定义 : 

e 基于 用 户 的 协同 过 滤 : 在 这 种 情况 下 ， 与 目标 用 户 A 想法 类 似 的 用 户 评分 被 用 来 预 
WAF A 的 推荐 内 容 。 因 此 ， 基 本 思路 是 确定 谁 和 目标 用 户 A 类 似 ， 并 且 用 户 A 
的 未 知 评分 可 以 由 A 的 同类 群体 的 加 权 平 均值 计算 出 来 。 因 此 ， 如 果 Alice 和 Bob 
过 去 曾 以 类 似 的 方式 评价 过 一 部 电影 ，Alice UH AWS (Terminator) xR 
电影 而 Bob 没 看 过 ， 就 可 以 用 Alice 的 评分 来 预测 Bob 的 评分 。 在 一 般 情况 下 ， 可 
以 用 上 有 个 与 Bob 最 相似 的 用 户 来 预测 Bob 的 评分 。 这 里 的 相似 度 函 数 通 过 计算 评分 
和 矩阵 的 每 行 来 发 现 相似 用 户 ，。 
基于 物品 的 协同 过 滤 : 为 了 对 用 户 A 与 指定 物品 B 做 出 评分 预测 ， 第 一 步 是 确定 
与 类似 的 物品 集 S。 用 户 A 对 S 中 物品 的 评分 被 用 来 预测 A 是 否 会 喜欢 物品 Bo 
因此 ，Bob 对 科幻 电影 《Alien》 和 《Predator》 的 评价 可 以 通过 他 对 类 似 科 幻 电 影 
《Terminator》 的 评价 推断 出 来 。 通 过 计算 评分 矩阵 列 之 间 的 相似 度 函 数 来 发 现 相 
似 的 物品 。 

基于 记忆 的 方法 的 优点 在 于 容易 实现 ， 并 且 其 生成 的 推荐 易于 解释 。 然 而 ， 基 于 记忆 
的 方法 并 不 适用 于 稀 玖 的 评分 矩阵。 例如 ， 它 很 难 找到 与 Bob 足够 相似 并 且 评 价 过 
《Gladiator》 的 用户， 这 种 情况 下 很 难 准确 地 预测 Bob 对 《Gladiator》 的 评分 。 换 句 话 说 ， 
这 种 方法 缺少 对 评分 预测 的 全 面 履 盖 。 但 如 果 只 需要 预测 出 top-& 个 最 相似 的 物品 ， 覆 盖 
面 不 全 也 没关系 。 基 于 记忆 的 方法 将 在 第 2 章 中 详细 讨论 。 

2) 基于 模型 的 方法 : 在 基于 模型 的 方法 中 会 用 到 机 器 学 习 和 数据 挖掘 技术 。 这 是 因 
为 模型 的 参数 需要 通过 一 个 优化 框架 学 习 得 到 。 基 于 模型 的 方法 包括 决策 树 、 基 于 规则 的 
模型 、 贝 叶 斯 方法 和 潜在 因子 模型 。 包 括 潜 在 因子 模型 在 内 的 许多 方法 ， 即 使 对 稀 玻 的 评 
分 矩阵 也 能 有 较 高 的 覆盖 率 。 基 于 模型 的 协同 过 滤 算 法 将 在 第 3 章 讨论 。 

基于 记忆 的 协同 过 滤 算 法 很 简洁 ， 但 却 是 启发 式 的 ， 并 不 适用 于 所 有 环境 。 基 于 模型 
的 方法 与 基于 记忆 的 方法 之 间 的 区 别 有 点 人 为 因素 ， 因 为 基于 记忆 的 方法 实际 上 可 以 被 认 
为 是 基于 相似 性 的 方法 。 在 第 2 章 的 2.6 节 中 将 表明 ， 一 些 基于 近邻 的 方法 变 体 可 以 形式 
化 地 表示 为 回归 模型 。 由 于 Netflix 大 奖 赛 的 影响 ， 潜 在 因子 模型 近 几 年 得 到 了 推广 ， 实 


际 上 ， 在 不 完整 数据 集 上 与 其 相似 的 算法 很 早 就 被 提出 了 [2 。 最 近 的 研究 表明 ， 一 些 基 
于 记忆 和 基于 模型 的 方法 的 结合 体 Co9 能 提供 非常 准确 的 结果 。 

1.3.1.1 评分 类 型 

推荐 算法 的 设计 受 跟踪 评分 系统 的 影响 。 评 分 是 由 用 户 对 手头 物品 的 喜爱 程度 决定 
的 。 评 分 可 能 是 连续 的 值 ， 如 在 Jester 笑话 推荐 引擎 [228'689] 中 ， 评 分 可 以 是 一 10 一 10 之 
间 的 任何 值 。 然 而 ， 这 是 比较 少见 的 。 通 常情 况 下 评分 是 离散 的 ， 由 一 组 离散 的 有 序数 来 
衡量 喜爱 程度 。 这 样 的 评分 被 称 为 区 间 评 分 法 。 例 如 ， 一 个 5 点 评分 表 可 以 用 集合 {一 2， 
—1,0, 1, 2) 表示 ， 其 中 一 2 表示 极端 厌恶 ，2 表示 十 分 喜爱 。 一 般 推 荐 系统 从 集合 
{1，2，3，4，5} 中 取 值 。 


身边 推荐 系统 的 评分 的 数量 级 可 能 会 有 所 不 同 。5 点 、 

7 点 甚至 是 10 点 的 评分 都 很 常见 。 i 1-1 中 展示 的 5 星 评 KA KKK z3 
分 系统 ， 是 区 间 评分 的 一 个 例子 。 每 一 个 评分 都 体现 了 用 AAA x 
户 的 兴趣 水 平 。 这 种 体现 可 能 由 于 商家 的 原因 稍 有 不 同 ， 

如 Ve Netflix. mt 采用 的 5 星 评分 系统 中 ，4 KKK Tä 
星 表示 “ 真 的 很 喜欢 ”，3 ERR “EK”, 因此, Netflix Sege yyy ex 


评分 系统 中 有 三 个 积极 的 评分 和 两 个 消极 的 评分 ， 称 之 为 
不 平衡 评分 表 。 在 某 些 情况 下 ， 可 能 有 一 个 偶数 数量 级 的 KOI E 


评分 系统 ， 因 此 中 性 评分 可 能 会 缺失 。 这 种 方法 被 称 作 强 图 1-1 5 星 评分 示例 
制 选 择 评 分 系统 。 

使 用 像 {强烈 不 同意 ,不 同意 ， 中 立 ， 同 意 ， 强 烈 同 意 }) 这 样 具体 的 值 来 进行 评分 也 
可 以 达到 相同 的 目的 。 总 的 来 说 ， 这 样 的 评分 被 称 为 序数 评分 ， 这 一 术语 源 于 有 序 属 性 这 
一 概念 。 如 图 1-2 所 示 ， 斯 坦 福 大 学 课程 评价 表 中 就 使 用 序数 评分 。 二 元 评分 中 ， 用 户 对 
一 种 物品 只 表达 喜欢 或 不 喜欢 。 例 如 ， 评 分 可 能 是 〈0，1)， 或 是 对 应 于 0-1 的 没有 具体 
数值 的 信号 。 一 元 评分 比较 特殊 ， 这 是 一 种 用 户 只 能 表达 自己 对 某 件 物品 的 喜爱 但 却 不 能 
表达 厌恶 的 机 制 。 尤 其 是 在 隐 式 反馈 数据 集 [23'250,457] 中 ， 一 元 评分 很 常见 。 这 些 情况 下 ， 
客户 的 喜好 是 通过 他 们 的 行为 而 不 是 明确 具体 的 评分 体现 的 。 例 如 ， 一 个 客户 的 购买 行为 
可 以 转化 为 一 元 评分 。 当 客户 购买 物品 时 ， 它 可 以 被 看 作 是 对 这 个 物品 的 喜爱 。 然 而 ， 在 
众多 可 能 性 中 ， 不 买 这 件 物品 并 不 总 是 表示 不 喜欢 它 。 同 样 ， 许 多 社交 网 络 ， 如 脸 书 网 ， 
使 用 “喜欢 ”按钮 表达 用 户 对 某 物品 感 兴趣 。 然 而 ， 却 没有 一 种 机 制 来 表明 厌恶 。 隐 式 反 
馈 可 以 看 作 类 似 数据 分 类 领域 正 例 和 无 标记 样本 学 习 问 题 中 的 矩阵 完善 Cs9] 。 


总 体 评分 
本 
1. 本 课程 内 容 的 质量 O O O o 
2. 授课 者 的 总 体 教学 6 © O © © © 
图 1-2 “斯坦福 大 学 课程 评价 的 序数 评分 示例 
显 式 及 隐 式 评分 的 举例 


量化 的 显 式 评分 样 例如 图 1-3a 所 示 。 图 中 有 标记 为 Ui 一 Us 的 6 个 用 户 ， 以 及 6 部 有 
详细 标题 的 电影 。 在 图 1- 3a 中 更 高 的 评分 表示 更 积极 的 反馈 。 缺 失 的 部 分 对 应 于 未 知 评 
分 。 这 张 图 只 是 一 个 小 例子 。 在 一 般 情 况 下 ,评分 可 以 表示 为 一 个 mXn 的 和 矩阵， 其 中 
和 通常 很 大 ， 可 能 高 达 数 十 万 。 这 个 特定 的 例子 使 用 了 6X6 WERE, MSE m A n 
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的 值 通常 是 不 一 样 的 。 评 分 矩阵 有 时 被 称 为 效用 矩阵 (utility matrix)， 但 这 两 个 概念 并 不 
总 是 相同 。 严 格 地 说 ， 当 效用 指 利润 量 时 ， 用 户 - 物 品 的 效用 即 为 因 向 指定 用 户 推荐 物品 
而 产生 的 利润 量 。 由 于 效用 矩 阵 常 常 被 设 为 与 评分 矩阵 同样 的 规模 ， 因 此 可 以 将 评分 按 指 
定 规则 转化 为 效用 值 。 相 较 于 评分 矩阵 而 言 ， 所 有 的 协同 过 滤 算 法 都 可 以 应 用 于 效用 拢 
阵 。 然 而 ， 这 种 用 法 在 实践 中 很 罕见 ， 大 多 数 协 同 过 滤 算 法 都 用 来 直接 处 理 评 分 矩阵 。 

一 元 评分 矩阵 的 一 个 样 例 在 图 1- 3b 中 给 出 。 在 评分 是 一 元 的 情况 下 ， 撼 阵 又 被 称 为 
积极 效用 矩阵， 因为 其 中 只 允许 积极 的 评价 。 图 1-3 中 的 两 个 矩阵 具有 相同 的 结构 ， 但 却 
给 出 了 完全 不 同 的 含义 。 例 如 ， 图 1-3a 中 的 用 户 Ul 和 Us 因为 评价 大 不 相同 而 被 区 分 开 
来 。 男 一 方面 ， 因 为 图 1- 3b 中 这 两 个 用 户 都 表现 了 对 相同 的 物品 的 积极 评价 ， 从 而 可 
以 被 认为 是 十 分 相似 的 。 效 用 评分 能 使 用 户 表 达 出 对 物品 的 负面 评价 。 例 如 ， 用 户 Un 
不 喜欢 图 1-3a PAY ALY (Gladiator), AA 1-3b 的 积极 效用 矩阵 中 没有 对 应 机 制 来 指定 相 
对 不 确定 的 评分 。 换 句 话 说， 图 1-3b 中 的 矩阵 不 那么 富有 表现 力 。 尽 管 图 1-3b 是 一 个 
二 进 制 矩阵 ， 它 的 非 零 项 仍 可 能 是 任意 的 正 值 。 例 如 ， 它 们 可 以 对 应 于 不 同 用 户 买 的 物 
品 数量 。 总 的 来 讲 ， 一 元 矩阵 是 由 用 户 如 购买 一 个 物品 的 行为 创建 的 ， 因 此 也 被 称 为 隐 
式 反 馈 矩 阵 。 





a) 量化 的 显 式 评分 
图 1-3 效用 矩阵 示例 


因为 不 需要 用 户 是 否 喜 欢 该 物品 的 信息 ， 所 以 一 元 评分 对 目前 的 推荐 算法 有 很 大 影 
响 。 对 于 一 元 矩阵 ， 推 荐 将 其 初始 化 为 全 0， 这 样 可 以 使 分 析 变 得 简单 。 然 而 ， 经 过 学 习 
算法 的 计算 ,最终 预 测 结果 可 能 比 0 大 得 多 ,尤其 是 物品 合乎 用 户 兴 趣 时 。 因 此 推荐 的 物 
品 应 为 矩阵 值 与 初始 0 值 相差 最 大 的 积极 评价 对 应 的 物品 。 实 际 上 ， 如 果 缺 失 的 部 分 没有 
被 初始 “0” 代 替 ， 就 可 能 发 生 明显 的 过 拟 合 。 这 种 现象 是 由 于 对 不 同 观测 值 的 区 分 度 不 
够 的 人 为 因素 所 造成 的 。 在 显 式 反馈 和 矩阵 中 ,不同 评分 对 应 着 有 显著 区 分 的 偏好 ; 而 在 隐 
式 反 馈 和 矩阵 中 ， 不 同 评分 对 应 于 区 别 度 不 大 的 信任 程度 。 在 后 面 的 章节 中 ,我们 将 给 出 一 
个 把 隐 式 反馈 矩阵 的 缺失 值 置 0 所 导致 的 过 拟 合 的 实例 (参见 第 3 章 3. 6. 6. 2 节 )。 

在 显 式 评 分 矩阵 中 并 不 推荐 对 缺失 部 分 做 预 蔡 换 处 理 。 因 为 在 同时 包含 喜爱 与 厌恶 的 
显 式 评分 矩阵 中 ， 对 缺失 部 分 (如 0 或 行 / 列 /数据 ) 使 用 任何 值 蔡 代 总 会 导致 显著 的 分 析 
偏差 。 在 一 元 评分 情况 下 ， 用 0 替代 缺失 内 容 也 会 导致 一 些 偏 差 [5747'48] (虽然 由 于 使 
用 隐 式 反馈 数据 的 原因 ， 这 类 偏差 常常 很 小 )， 比 如 购买 情况 数据 ， 用 户 不 可 能 购买 多 数 
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物品 。 由 于 采用 预 蔡 换 减少 了 过 拟 合 程度 ， 一 元 情况 下 这 种 偏差 还 是 可 以 接受 的 。 还 有 一 
些 这 类 选择 方面 的 有 趣 的 计算 结果 。 这 方面 的 权衡 在 第 2 章 和 第 3 章 中 讨论 。 

1.3. 1.2 与 缺失 值 分 析 的 关系 

协同 过 滤 模 型 与 缺失 值 分析 密 切 相 关 。 关 于 缺失 数据 分 析 的 传统 文献 研究 的 是 对 不 完 
整 和 矩阵 上 的 数据 补 全 问题 。 协 同 过 滤 可 以 被 看 作 是 在 大 且 称 下 的 数据 矩阵 上 这 类 问题 的 特 
例 。 统 计 文献 中 对 缺失 值 分 析 方 法 的 详细 讨论 可 以 在 [362] 中 找到 。 许 多 缺失 值 分 析 方 
法 也 可 以 用 于 推荐 系统 ， 但 某 些 方法 还 需要 进行 一 些 调整 从 而 适应 大 且 稀 朴 的 矩阵 。 事 实 
上 ， 最 近 的 一 些 推荐 系统 〈 如 潜在 因子 模型 ) 在 缺失 值 分 析 领 域 早 期 [ 约 就 被 研究 过 。 在 
推荐 系统 领域 有 类 似 的 方法 独立 被 提出 [252.309,313,500,517,525] 。 一 般 来 说 ， 很 多 经 典 的 缺失 
值 估计 方法 J 也 可 用 于 协同 过 滤 。 

1.3.1.3 协同 过 滤 作 为 分 类 模型 和 回归 模型 的 泛 化 

协同 过 滤 方 法 可 以 视 作 分 类 和 回归 模型 的 泛 化 。 在 分 类 和 回归 模型 中 ， 类 变量 (或 称 
因 变量 ) 可 以 被 视 为 值 缺 失 的 属性 。 其 他 列 被 视 为 特征 变量 〈 或 称 自 变量 )。 协 同 过 滤 问 
题 可 以 看 作 是 这 一 框架 的 泛 化 ， 因 为 它 允 许 任何 列 上 都 可 以 有 缺失 值 而 不 只 是 类 变量 上 
有 。 在 推荐 问题 上 ， 类 变量 和 特征 变量 之 间 不 存在 明确 的 区 别 ， 这 是 因为 每 个 特征 变量 都 
扮演 着 自 变量 和 因 变 量 的 双重 角色 。 而 在 分 类 问题 中 ， 类 变量 和 特征 变量 之 间 存 在 明确 区 
别 的 原因 是 缺失 值 被 限制 在 特殊 的 列 。 此 外 ， 由 于 任何 行 都 可 能 包含 缺失 内 容 ， 协 同 过 滤 
中 训练 行 与 测试 行 并 没有 什么 区 别 。 因 此 ， 在 协同 过 滤 中 提 及 训练 元 素 、 测 试 元 素 比 训练 
行 、 测 试行 更 有 意义 。 协 同 过 滤 作 为 分 类 /回归 模型 的 泛 化 ， 它 是 基于 元 素 而 不 是 基于 行 
做 预测 。 分 类 /回归 模型 与 协同 过 滤 的 这 种 关系 至 关 重 要 ， 需 要 牢记 于 心 ， 因 为 分 类 和 回 
归 模 型 中 的 许多 原则 都 能 被 推广 到 推荐 系统 中 。 这 两 个 问题 之 间 的 关系 如 图 1-4 所 示 。 这 
张 图 有 效 说 明了 协同 过 滤 与 分 类 的 联系 ， 它 会 在 这 本 书 中 多 次 被 提 到 。 这 两 个 问题 的 相似 
之 处 被 应 用 于 算法 和 理论 发 展 。 





自 变量 和 因 变 量 没 有 明显 分 界 
a) 分 类 b) 协同 过 滤 
图 1-4 传统 分 类 问题 和 协同 过 滤 的 比较 。 阴 影 项 表示 需要 被 预测 的 缺失 项 


惩 阵 补 全 问题 也 有 诸多 和 直 推 式 环境 下 的 分 类 和 回归 问题 一 样 的 特性 。 直 推 式 环境 
中 ， 测 试 实例 也 包括 在 训练 过 程 中 〈 通 常 伴随 着 半 监 督 算 法 的 使 用 ) ， 在 训练 过 程 中 不 能 
获得 的 测试 实例 通常 很 难 预测 。 另 一 方面 ， 能 容易 地 对 新 例子 做 出 预测 的 模型 称 作 归 纳 模 
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型 。 例 如 ， 分 类 问题 中 朴素 贝 叶 斯 模型 可 以 认为 是 固有 的 归纳 模型 ， 因 为 可 以 容易 地 用 它 
去 预测 测试 实例 的 标签 ， 但 其 中 构建 贝 叶 斯 模型 时 的 特征 是 未 知 的 。 

FF HE m Xn 的 评分 矩阵 尽 中 训练 数据 和 测试 数据 彼此 之 间 结 合 紧 密 ， 而 且 多 数 模型 
不 能 轻易 预测 样本 以 外 的 用 户 和 物品 的 评分 ,矩阵 补 全 问题 的 设 定 是 固有 直 推 式 的 。 例 
如 ， 如 果 John 在 协同 过 滤 和 矩阵 建立 后 被 加 入 评分 矩阵 (有 许多 具体 评分 ) 中 ,许多 现成 
的 方法 将 无 法 对 John 做 出 预测 。 对 于 这 种 基于 模型 的 协同 过 滤 方 法 尤其 如 此 。 然 而 ， 最 
近 的 一 些 和 矩阵 补 全 模型 也 被 设计 为 归纳 型 的 ， 可 以 预测 样本 外 用 户 和 物品 的 评分 。 


1.3.2 基于 内 容 的 推荐 系统 


在 基于 内 容 的 推荐 系统 中 ， 物 品 的 描述 性 属性 用 来 做 出 推荐 。 术 语 “ 内 容 ” 指 的 就 是 
这 些 描述 。 在 基于 内 容 的 方法 中 ， 用 户 的 评分 和 购买 行为 与 在 物品 中 可 以 获得 的 内 容 信息 
相 结 合 。 例 如 ， 考 虑 John 给 予 电影 《Terminator》 很 高 的 评分 , 但 是 我 们 没 办 法 知道 其 
他 用 户 的 评分 。 因 此 ， 协同 过 滤 方 法 被 排除 在 外 。 然 而 ,电影 《Terminator》 的 物品 描述 
包含 着 与 其 他 科幻 电影 如 《Alien》 和 《Predator》 类 似 的 关键 词 。 在 这 种 情况 下 ， 这 些 电 
影 可 以 推荐 给 John, 

在 基于 内 容 的 方法 中 ， 被 贴 上 评分 的 物品 描述 用 作 测 试 数据 ， 以 建立 一 个 特定 用 户 的 
分 类 或 回归 建 模 问 题 。 对 于 每 一 个 用 户 ， 训 练 文件 对 应 于 他 所 购买 或 者 已 评分 物品 的 描 
R. KB (A) 变量 对 应 于 物品 的 评分 或 者 购买 行为 。 这 些 训 练 文件 用 来 为 特定 用 户 (或 者 
活路 用 户 ) 创建 分 类 或 回归 模型 。 这 种 特定 用 户 模 型 用 来 预测 相应 个 人 是 否 会 喜欢 他 没有 
评 过 分 或 者 没有 购买 过 的 物品 。 

基于 内 容 的 方法 在 推荐 新 物品 (新 物品 的 评分 往往 不 够 充分 ) 时 具有 一 些 优势 。 这 是 
因为 其 他 具有 类 似 属 性 的 物品 也 许 已 经 被 活路 用户 评分 了 。 因 此 ， 即 使 在 物品 没有 历史 评 
分 的 情况 下 ， 该 监督 模型 也 能 利用 物品 评分 和 物品 属性 之 间 的 关联 做 出 推荐 。 

基于 内 容 的 方法 当然 也 存在 一 些 不 足 : 

1) 由 于 是 基于 关键 词 或 者 内 容 的 推荐 ， 导 致 在 很 多 情况 下 基于 内 容 的 方法 仅仅 提供 
了 显而易见 的 推荐 。 例 如 ， 如 果 一 个 用 户 从 来 没有 消费 过 具有 一 组 关键 词 的 物品 ， 那 么 这 
种 物品 是 不 可 能 被 推荐 的 。 这 是 因为 所 建立 的 模型 是 针对 特定 的 当前 用 户 ， 而 与 该 用 户 相 
似 的 用 户 群 体 的 知识 并 没有 被 有 效 利 用 。 这 种 现象 倾向 于 减少 推荐 物品 的 多 样 化 ， 这 并 不 
是 理想 的 结果 。 

2) 尽管 基于 内 容 的 方法 在 提供 新 物品 推荐 时 是 有 效 的 ， 但 是 它们 却 不 能 有 效 地 为 新 
用 户 做 出 推荐 。 这 是 因为 训练 模型 需要 用 到 他 的 历史 评分 。 事 实 上 ， 为 了 做 出 强健 而 不 过 
拟 合 的 预测 ， 需 要 用 户 拥 有 海量 的 评分 。 

因此 ， 基 于 内 容 的 方法 和 协同 过 滤 方 法 相 比 各 有 侧重 。 

前 面 所 提 到 的 是 一 些 基 于 内 容 的 方法 的 传统 学 习 策 略 ， 实 际 上 还 有 更 多 的 方法 被 运 
用 。 例 如 ， 用 户 可 以 在 自己 的 用 户 画像 中 指定 相关 的 关键 词 。 这 些 用 户 画 像 可 以 与 物品 描 
述 相 匹配 ， 以 做 出 推荐 。 这 种 方法 不 在 推荐 过 程 中 使 用 评分 ， 因 此 它 在 冷 启 动 方案 中 是 有 
用 的 。 然 而 这 样 的 方法 通常 被 视 为 推荐 系统 中 一 个 特殊 的 类 ， 被 称 为 基于 知识 的 系统 
(knowledge-based system) ， 因 为 相似 性 度量 通常 是 基于 领域 知识 的 。 基 于 知识 的 推荐 系 
统 与 基于 内 容 的 推荐 系统 通常 被 认为 是 紧密 相连 的 ， 并 且 ， 有 时 人 们 会 质疑 这 两 类 方法 之 
间 是 否 存 在 明确 的 界限 [ss] 。 基 于 内 容 的 推荐 系统 的 方法 会 在 第 4 章 讨论 。 
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1.3.3 基于 知识 的 推荐 系统 


基于 知识 的 推荐 系统 在 不 常 购买 的 物品 背景 下 特别 有 用 ， 像 购买 房产 、 汽 车 、 旅 游 需 
求 、 金 融 服务 或 者 昂贵 奢侈 品 这 样 的 物品 。 在 这 些 情 况 下 ， 推 荐 过 程 可 能 不 能 获得 足够 的 
评分 。 当 物品 购买 率 低 并 且 有 不 同类 型 的 详细 选择 时 ， 对 于 这 种 物品 ， 是 很 难 获 得 足够 数 
量 的 对 于 一 个 特定 的 实例 化 〈 即 各 类 选项 的 组 合 ) 的 评分 的 。 在 冷 启 动 问题 的 背景 下 ， 也 
会 遇 到 这 个 问题 ， 即 推荐 过 程 得 不 到 足够 的 评分 。 此 外 ， 消 费 者 对 物品 的 偏好 也 可 能 随 着 
时 间 的 推移 而 改变 。 例 如 ， 汽 车 的 模型 几 年 后 也 许 会 发 生变 化 ， 相 应 地 ， 用 户 的 喜好 也 许 
会 发 生变 化 。 在 其 他 一 些 情况 下 ， 也 许 很 难 凭借 历史 评分 数据 (例如 用 户 的 评分 ) 完全 抓 
住 用 户 的 兴趣 。 一 个 物品 可 能 有 着 很 多 的 属性 ， 而 用 户 仅 仅 对 物品 中 的 特定 属性 感 兴趣 。 
例如 ， 汽 车 可 能 有 制造 商 、 模 型 、 颜 色 、 引 擎 选择 和 内 设 选 项 ， 用 户 的 兴趣 也 许 仅 仅 局 限 
于 这 几 个 选项 的 一 个 特定 组 合 。 因 此 ， 在 这 些 情 形 中 ， 物 品 过 多 的 属性 导致 很 难 将 足够 多 
的 评分 和 这 种 庞大 的 组 合 建立 关联 。 

这 些 情形 可 以 通过 基于 知识 的 推荐 系统 来 解决 ， 在 这 种 系统 中 ， 评 分 并 不 是 用 于 做 推 
荐 的 。 相 反 ， 该 系统 是 基于 客户 需求 和 物品 描述 之 间 的 相似 性 做 推荐 ， 或 利用 指定 用 户 需 
求 的 约束 做 推荐 。 这 个 过 程 需要 用 到 知识 库 (knowledge base) ， 知 识 库 中 包含 检索 过 程 中 
需要 用 到 的 规则 和 相似 度 函 数 。 事 实 上 ， 知 识 库 对 于 这 些 方法 的 有 效 运作 非常 重要 ， 以 至 
于 这 个 方法 的 名 字 来 自 这 个 事实 。 对 需求 的 精确 描述 使 得 在 推荐 过 程 中 可 以 更 好 地 控制 用 
户 。 在 协同 和 基于 内 容 的 系统 中 ， 推 荐 完全 是 由 用 户 过 去 的 行为 /评分 、 他 的 伙伴 的 行为 / 
评分 或 者 两 者 相 结合 所 决定 的 。 而 基于 知识 的 系统 是 不 一 样 的 ， 它 允许 用 户 明 确 地 表达 他 
们 想 要 什么 。 这 种 差别 在 表 1-2 中 体现 。 


表 1-2 各 类 推荐 系统 的 概念 上 的 目标 


概念 上 的 目标 
基于 协同 方法 利用 我 的 同 组 群体 的 评分 和 行为 给 出 推荐 


基于 我 过 去 的 评分 和 行为 根据 我 所 喜欢 的 内 容 〈 属 性 ) 做 出 
推荐 


基于 我 对 某 种 内 容 (属性 ) 的 精确 要 求 给 出 推荐 









用 户 评分 十 社区 评分 








基于 内 容 的 用 户 评 分 十 物品 属性 








基于 知识 的 用 户 要 求 十 物品 属性 十 领域 知识 





可 以 根据 界面 的 类 型 (和 相关 的 知识 ) 将 基于 知识 的 推荐 系统 划分 成 如 下 几 类 : 

D 基于 约束 的 推荐 系统 : 在 基于 约束 的 系统 中 03"137]， 用 户 通 常 在 物品 属性 中 指定 
他 的 要 求 和 约束 例如 下 限 或 者 上 限 )。 这 类 界面 的 例子 如 图 1-5 所 示 。 特 定 领域 的 规则 
被 用 来 匹配 用 户 对 物品 属性 的 需求 。 这 些 规 则 代表 系统 所 使 用 的 特定 领域 知识 。 规 则 的 形 
式 可 以 采用 对 物品 属性 值 的 约束 (例如 ，“1970 年 之 前 没有 带 导 航 系统 的 汽车 ”)。 此 外 ， 
基于 约束 的 系统 通常 创建 将 用 户 属性 与 物品 属性 相关 联 的 规则 (例如 ， “年 迈 的 投资 者 不 
投资 超 高 风险 的 产品 ”)。 在 这 种 情况 下 ， 用 户 属性 也 会 在 搜索 过 程 中 被 指定 。 通 过 返回 结 
果 的 数量 和 类 型 ， 用 户 可 以 修改 原始 的 需求 。 例 如 ， 在 搜索 结果 太 少 的 时 候 ， 可 以 网 宽 秽 
索 约束 ， 反 之 亦 然 。 这 个 搜索 过 程 会 一 直 重 复 交 互 直到 达到 用 户 所 期 望 的 结 旱 。 

2) 基于 案例 的 推荐 系统 : 在 基于 案例 的 推荐 系统 P02.06,377,553] 中 ， 用 户 措 证 特定 的 
情形 作为 目标 或 者 锚 点 。 相 似 性 度量 被 定义 在 物品 属性 上 用 于 检索 类 似 的 物品 。 这 类 界面 
的 例子 如 图 1-6 所 示 。 相 似 性 度量 通常 是 基于 特定 的 领域 被 仔细 定义 。 因 此 ， 租 似 性 度量 
构成 了 这 类 系统 中 的 领域 知识 。 返 回 的 结果 通常 在 用 户 反 馈 修改 中 作为 新 的 案例 从 和 由 。 初 
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如 ， 当 一 个 用 户 看 到 一 个 与 他 想 要 的 最 相似 的 返回 结果 时 ， 他 可 能 会 重新 发 布 一 个 与 该 目 
标 一 样 但 有 少许 修改 要 求 的 查询 。 这 种 互动 的 过 程 会 引导 用 户 找到 他 感 兴趣 的 物品 。 


我 想 买 满足 下 列 要 求 的 房子 : 


Cee NE 


我 想 买 与 下 列 特征 相似 的 房子 : 


EEDU = ets 


我 想 买 和 下 面 地 址 接近 的 房子 : 





图 1-6 一 个 基于 案例 的 推荐 系统 中 初始 用 户 界面 的 假定 样 例 


注意 在 这 两 种 情形 中 ， 系 统 都 为 用 户 提供 了 改变 预先 需求 的 机 会 。 然 而 ， 这 种 允许 改 
变 需 求 的 方式 在 两 种 系统 中 是 不 同 的 。 在 基于 案例 的 系统 中 ， 例 子 〈 或 情形 ) 被 用 作 锚 
点 ， 与 相似 性 度量 相 结合 来 指导 搜索 。 批 评 界面 因为 在 这 样 的 系统 中 表达 反馈 而 受 欢 迎 ， 
在 这 种 界面 中 ， 用 户 在 每 个 迭代 中 反复 修改 一 个 或 者 多 个 喜欢 的 物品 的 属性 。 在 基于 约束 
的 系统 中 ， 规 则 (或 者 约束 ) 用 来 指导 搜索 。 指 导 的 形式 通常 采用 基于 搜索 的 系统 ， 即 用 
户 在 一 个 基于 搜索 的 界面 中 指定 约束 。 

如 何 实 现 基 于 知识 的 推荐 系统 的 互动 性 ? 这 种 指导 是 通过 以 下 一 种 或 者 多 种 方式 来 实 
现 的 : 

D 会 话 式 系统 : 在 这 种 情况 下 ， 用 户 的 喜好 是 由 一 个 反馈 循环 不 断 和 迭代 而 确定 的 。 
这 样 设计 的 主要 原因 是 物品 域 是 复杂 的 ， 并 且 用 户 的 喜好 只 有 通过 迭代 的 对 话 系 统 才 能 
确定 。 
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2) 基于 搜索 的 系统 : 在 基于 搜索 的 系统 中 ， 用 户 的 喜好 通过 一 个 预先 设 定 的 顺序 问 
题 得 出 ， 比 如 :“ 你 喜欢 郊区 的 房子 还 是 城市 的 房子 ?” 在 某 些 情况 下 ， 可 以 通过 设置 特定 
的 搜索 界面 来 表达 用 户 的 约束 。 

3) 基于 导航 的 推荐 : 在 基于 导航 的 推荐 中 ， 用 户 对 当前 推荐 的 物品 提出 大 量 的 修改 
请 求 。 通 过 一 组 迭代 的 修改 请 求 ， 很 可 能 找到 一 个 期 望 的 物品 。 例 如 ， 对 于 一 个 系统 推荐 
的 房子 ， 用 户 的 修改 请 求 可 以 是 : “我 想 要 一 个 类 似 的 房子 ， 大 约 在 目前 推荐 的 房子 的 5 
英里 (1 英里 sz*1609 米 ) 以 西 .” 这 样 的 推荐 系统 也 被 称 作 批评 推荐 系统 [47] 。 

值得 注意 的 是 ， 基 于 知识 的 系统 和 基于 内 容 的 系统 很 依赖 物品 的 属性 。 由 于 它们 对 内 
容 属性 的 使 用 ， 基 于 知识 的 系统 继承 了 一 些 与 基于 内 容 的 系统 相同 的 缺点 。 例 如 ， 基 于 知 
识 的 系统 和 基于 内 容 的 系统 一 样 ， 因 为 没有 利用 社区 〈 例 如 ， 同 组 群体 ) 评分 的 信息 ， 它 
的 推荐 有 时 是 显而易见 的 。 实 际 上 ， 基 于 知识 的 系统 有 时 会 被 认为 是 基于 内 容 的 系统 的 
“ 表 兄 妹 ”5553] 。 它 们 的 主要 区 别 是 ， 基 于 内 容 的 系统 是 从 用 户 过 去 的 行为 中 进行 推荐 ， 而 
基于 知识 的 系统 是 以 活跃 用 户 的 具体 需求 和 喜好 来 进行 推荐 的 。 因 此 ， 大 多 数 推荐 文献 认 
为 基于 知识 的 推荐 系统 与 基于 内 容 的 推荐 系统 属于 不 同类 别 。 这 些 类 别 的 区 别 是 基于 系统 
的 目标 和 所 使 用 的 输入 数据 来 判定 的 〈 见 表 1-2) 。 基 于 知识 的 推荐 系统 的 不 同形 式 将 在 第 
5 章 中 进行 讨论 。 

1.3.3.1 基于 效用 的 推荐 系统 

在 基于 效用 的 推荐 系统 中 ， 定 义 了 一 个 产品 特征 上 的 效用 函数 以 计算 用 户 喜 欢 物品 的 
概率 5238] 。 以 效用 为 基础 的 方法 的 核心 挑战 是 如 何 为 当前 用 户 定义 一 个 合适 的 效用 函数 。 
值得 注意 的 是 ， 所 有 的 推荐 模式 ， 无 论 是 协同 的 、 基 于 内 容 的 还 是 基于 知识 的 方法 ， 都 根 
据 它们 的 目标 用 户 的 感知 价值 〈 或 效用 ) 隐 式 地 将 推荐 的 物品 进行 排序 。 在 基于 效用 的 系 
统 中 ， 这 种 效用 价值 基于 一 个 称 为 先 验 的 函数 。 从 这 个 意义 上 来 说 ， 这 样 的 函数 可 以 看 作 
是 一 种 外 部 知识 。 因 此 ， 基 于 效用 的 系统 可 以 被 视 为 一 种 指定 情形 下 的 基于 知识 的 推荐 系 
统 。 实 际 上 ， 我 们 将 在 第 5 章 中 展示 ， 在 基于 知识 的 推荐 系统 中 效用 函数 会 被 频繁 地 用 于 
排列 物品 。 


1.3.4 人 口 统计 推荐 系统 


在 人 口 统计 推荐 系统 中 ， 利 用 对 用 户 的 人 口 统计 信息 来 学 习 可 以 映射 特定 的 统计 评分 
或 者 购买 倾向 的 分 类 器 。 早 期 的 推荐 系统 ， 简 称 格 兰 迪 (Grundy), EF E BEF 
工 组 装 模 式 来 推荐 书 。 用 户 的 特征 通过 一 个 互动 对 话 来 收集 。[320] 的 研究 工作 中 观察 到 
市 场 调查 的 人 口 群体 可 以 用 来 推荐 物品 。 另 一 项 工作 [* 引 根据 对 某 个 特定 网 页 做 出 高 评分 
用 户 的 统计 信息 做 出 网 页 推荐 。 在 许多 情况 下 ， 人 口 统计 信息 可 以 与 额外 的 内 容 相 结合 来 
指导 推荐 过 程 。 这 种 方法 与 上 下 文敏 感 的 推荐 系统 的 方法 是 相关 的 。 其 中 一 些 方法 会 在 第 
8 Æ 8. 5.3 节 进行 讨论 。 

更 多 最 近 的 技术 注重 用 分 类 器 来 进行 推荐 。 其 中 一 个 有 趣 的 系统 就 是 一 种 从 用 户 的 主 
页 上 提取 特征 来 预测 他 们 喜欢 某 些 餐 馆 的 可 能 性 。 基 于 规则 的 分 类 器 [13 经常 以 交互 的 
方式 关联 人 口 统计 信息 和 购买 行为 。 尽 管 [31，32] 中 的 方法 没有 专门 用 于 推荐 特定 的 物 
品 ， 但 它 很 容易 与 推荐 系统 配合 使 用 。 这 样 的 推荐 系统 与 香草 分 类 和 回归 模型 问题 没有 很 
大 的 不 同 ， 其 中 特征 变量 对 应 于 人 口 统计 信息 而 因 变量 对 应 于 评分 或 者 购买 行为 。 虽 然 人 
口 推荐 系统 通常 不 能 独立 地 用 于 提供 最 好 的 结果 ， 但 是 它们 可 以 作为 混合 模型 或 集成 模型 
的 一 个 组 成 部 分 ， 显 著 地 提高 其 他 推荐 系统 的 性 能 。 人 口 统计 技术 有 时 会 与 基于 知识 的 推 
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荐 系统 相 结 合 来 提高 健壮 性 。 


1.3.5 混合 集成 的 推荐 系统 


上 上 述 的 三 个 系统 利用 不 同 的 输入 源 ， 它 们 可 能 在 不 同 的 情况 下 工作 得 很 好 。 例 如 ， 协 
同 过 滤 系 统 依赖 社区 评分 ， 基于 内 容 的 方法 依赖 文本 描述 和 目标 用 户 自己 的 评分 ， 基 于 知 
识 的 系统 依赖 知识 库 环境 下 与 用 户 的 交互 。 类 似 地 ， 人 口 统计 系统 利用 用 户 的 人 口 统计 信 
息 来 做 出 推荐 。 值 得 注意 的 是 ， 这 些 不 同 的 系统 采用 不 同 的 输入 类 型 ， 并 各 有 优 缺 点 。 一 
些 推荐 系统 ， 如 基于 知识 的 推荐 系统 ， 当 大 量 数 据 不 可 用 时 ， 在 冷 启 动 设置 方面 更 有 效 。 
其 他 推荐 系统 ， 如 协同 方法 ， 当 大 量 数据 可 用 的 时 候 更 有 效 。 

在 很 多 情况 下 ， 当 可 以 使 用 广泛 的 输入 时 ， 人 们 可 以 灵活 选择 不 同类 型 的 推荐 系统 来 
做 相同 的 任务 。 在 这 种 情况 下 ， 有 很 多 “杂交 ”的 机 会 ， 让 不 同类 型 的 系统 相互 结合 来 达 
到 最 好 的 效果 。 混 合 推 荐 系统 与 集成 分 析 领 域 是 密切 相关 的 ， 其 中 多 类 型 的 机 器 学 习 算 法 
被 组 合 起 来 构建 一 个 具有 健壮 性 的 模型 。 基 于 集成 的 推荐 系统 不 仅 能 组 合 多 个 数据 源 的 威 
力 ， 还 能 将 同一 类 型 的 多 个 模型 结合 起 来 ， 从 而 提高 某 一 特定 类 的 推荐 系统 的 有 效 性 〈 例 
如 ， 协 同系 统 ) 。 这 种 方法 与 数据 分 类 中 的 集成 数据 分 析 并 没有 什么 不 同 。 第 6 章 将 研究 
推荐 系统 的 各 种 杂交 策略 。 


1.3.6 对 推荐 系统 的 评价 


给 定 一 组 推荐 算法 ,它们 执行 得 如 何 ?” 如何 评价 它们 的 相对 有 效 性 ?推荐 系统 与 分 类 
和 回归 建 模 问 题 共 享 了 几 个 概念 。 在 分 类 和 回归 建 模 中 ， 缺失 的 类 变量 需要 从 特征 变量 中 
来 预测 。 在 推荐 系统 中 ， 任 何 矩 阵 项 都 可 能 会 缺失 ， 需 要 从 剩余 矩阵 可 见 的 项 中 以 数据 驱 
动 的 方式 来 预测 。 从 这 个 意义 上 来 说 ， 推 荐 问题 可 以 被 视 为 分 类 问题 的 一 个 泛 化 。 因 此 ， 
许多 用 于 评价 分 类 的 模型 只 需 稍 作 修改 便 可 以 用 于 评价 推荐 系统 。 对 于 不 同 的 推荐 系统 ， 
评估 技术 有 很 大 的 不 同 ， 例 如 评分 预测 或 者 排名 。 前 者 与 分 类 和 回归 建 模 密切 相关 ， 而 后 
者 与 信息 检索 应 用 中 对 检索 有 效 性 的 评估 密切 相关 。 推 荐 系统 的 评价 方法 将 在 第 7 章 中 详 
细 讨 论 。 


1.4 推荐 系统 领域 特有 的 挑战 


在 不 同 的 领域 ， 比 如 时 间 数 据 、 位 置 数据 和 社交 数据 ， 推 荐 物品 的 上 下 文 发 挥 着 重要 
的 作用 。 因 此 ， 提 出 了 上 下 文 推 荐 系统 来 处 理 与 推荐 有 关 的 辅助 信息 。 这 一 概念 被 用 于 各 
种 类 型 的 数据 ， 比 如 时 间 数 据 、 位 置 数 据 或 者 社交 数据 。 


1.4.1 基于 上 下 文 的 推荐 系统 


基于 上 下 文 或 上 下 文 感知 的 推荐 系统 在 做 推荐 时 考虑 了 各 种 类 型 的 上 下 文 信息 。 这 种 
上 下 文 信息 可 以 包括 时 间 、 位 置 或 社交 数据 。 例 如 ， 零 售 商 对 衣服 种 类 的 建议 取决 于 季节 
和 客户 的 地 理 位 置 。 另 一 个 例子 是 特定 类 型 的 节日 或 假日 影响 潜在 客户 活动 。 

已 经 证 明 使 用 这 类 上 下 文 信息 可 以 大 大 提高 推荐 的 有 效 性 。 基 于 上 下 文 的 推荐 系统 由 
于 其 潜在 的 想法 与 很 多 特定 领域 背景 有 关 而 非常 强大 。 实 际 上 ， 在 许多 基于 特定 上 下 文 的 
推荐 系统 中 会 用 到 多 维 模 型 (multidimensional mode) U] (该 主题 会 在 后 面 的 章节 中 多 次 
提 到 )。 上 下 文 感知 推荐 系统 将 在 第 8 章 进 行 大 致 讨论 。 然 而 ， 上 下 文 的 各 个 方面 ， 比 如 
时 间 、 位 置 和 社交 信息 ， 将 会 在 其 他 章节 进行 详细 研究 。 下 面 提供 这 些 方面 的 概括 性 
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论述 。 


1.4.2 时 间 敏 感 的 推荐 系统 


在 许多 情况 下 ， 一 件 物品 的 建议 可 能 会 随 着 时 间 的 推移 而 改变 。 例 如 ， 对 一 部 电影 的 
推荐 从 电影 发 布 时 到 随后 的 几 年 可 能 会 发 生变 化 。 在 这 些 情况 下 ， 推 荐 过 程 中 包含 时 间 信 
息 是 很 重要 的 。 推 荐 系统 的 时 间 性 会 通过 以 下 方式 体现 : 

D 由 于 社 群 态度 、 用 户 兴趣 以 及 时 尚 风向 会 随 着 时 间 变 化 ， 物 品 的 评分 也 会 随 着 时 
间 而 变化 。 

2) 物品 的 评分 会 由 一 天 中 具体 时 间 点 、 星 期 几 、 几 月 、 什 么 季节 决定 。 例 如 ， 在 夏 
季 推 荐 冬天 的 服装 或 是 在 旱季 推荐 雨衣 是 没有 什么 意义 的 。 

第 一 种 推荐 系统 是 通过 将 时 间作 为 协同 过 滤 系 统 的 一 个 参数 来 实现 的 。 第 二 种 推荐 系 
统 可 以 被 视 为 第 一 种 推荐 系统 的 特例 。 因 为 评分 矩阵 稀 玻 而 且 对 特定 时 间 上 下 文 的 使 用 加 
剧 了 稀疏 性 ， 这 给 时 间 敏 感 推荐 系统 带 来 了 挑战 。 因 此 ， 在 这 些 情 况 下 获取 大 数据 集 是 很 
重要 的 。 

男 一 种 常见 情况 是 如 网 站 点 击 流 之 类 的 隐 式 反馈 数据 集 。 用 户 在 网 页 或 是 其 他 平台 上 
的 活动 会 产生 很 多 有 用 的 信息 一 一 可 以 被 挖掘 来 对 用 户 未 来 活动 做 出 推荐 。 在 这 些 情况 
下 ， 离 散 序列 模式 挖掘 和 马尔 可 夫 模 型 大 有 神 益 。 时 间 敏 感 推荐 的 问题 在 第 9 章 中 详细 


介绍 。 





1.4.3 基于 位 置 的 推荐 系统 


随 着 带 GPS 功能 的 手机 的 普及 ， 消 费 者 往往 对 基于 位 置 的 推荐 感 兴趣 。 例 如 ， 旅 行 
的 用 户 可 能 希望 通过 基于 他 过 去 对 其 他 餐馆 的 评价 来 推荐 一 家 最 近 的 餐馆 。 总 的 来 讲 ， 对 
地 点 的 推荐 总 会 包含 位 置 方 面 的 因素 。 这 类 系统 的 例子 如 FoursquareS ， 它 向 用 户 推荐 各 
种 类 型 的 餐厅 或 夜生活 场所 等 。 这 类 系统 通常 有 两 种 空间 位 置 关 系 : 

D 特定 用 户 位 置 : 用 户 的 地 理 位 置 对 他 的 喜好 具有 重要 影响 。 例 如 ， 来 自 威斯康星 
州 的 用 户 和 来 自 纽约 的 用 户 可 能 没有 相同 的 电影 喜好 。 这 种 类 型 的 位 置 称 为 偏好 位 置 。 

2) 特定 物品 位 置 : 根据 用 户 当前 的 位 置 ， 物 品 (例如 ， 餐 厅 ) 的 地 理 位 置 可 能 对 物品 
的 关联 性 产生 影响 。 用 户 一 般 都 不 愿意 去 距 他 们 当前 位 置 很 远 的 地 方 。 这 类 位 置 称 为 旅行 
位 置 。 

偏好 位 置 和 旅行 位 置 算 法 大 不 相同 。 前 者 更 接近 于 上 下 文敏 感 的 推荐 系统 ， 而 后 者 通 
常设 计 为 点 对 点 启发 式 。 近 年 来 ， 由 于 移动 电话 和 其 他 GPS 设备 的 日 益 普及 ， 基 于 位 置 
的 推荐 系统 越 来 越 受 欢迎 。 第 9 章 详细 讨论 基于 位 置 的 推荐 系统 。 


1.4.4 社交 信息 系统 


社交 信息 系统 基于 网 络 的 结构 、 社 交 线 索 和 标签 ， 或 各 个 方面 的 组 合 。 总 的 来 讲 ， 基 
于 社交 线索 和 标签 的 推荐 系统 一 般 与 那些 纯粹 基于 结构 方面 的 系统 略 有 不 同 。 纯 粹 基于 结 
构 方面 的 推荐 系统 ， 用 来 推荐 网 络 内 的 结 点 和 链接 。 另 一 方面 ， 社 交 信 息 系统 还 能 利用 社 
交 线 索 来 推荐 产品 。 这 两 种 形式 的 推荐 系统 都 将 在 本 书 中 进行 研究 。 然 而 ， 这 些 推荐 系统 
的 形式 大 不 相同 以 至 于 将 在 本 书 的 不 同 章节 中 进行 研究 。 值 得 注意 的 是 ， 结 构 推 荐 系统 的 
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使 用 范围 超出 了 社交 网 络 ， 因 为 这 样 的 方法 适用 于 不 同类 型 的 网 络 。 

1.4.4.1 结构 推荐 系统 中 的 结 点 和 链接 

包括 社交 网 络 在 内 的 各 种 类 型 的 网 络 ， 都 是 由 结 点 和 链接 组 成 的 。 在 许多 情况 下 ， 推 
荐 结 点 和 链接 是 可 取 的 。 例 如 ,个 性 化 的 网 络 搜索 中 可 能 需要 推荐 与 某 一 特定 主题 相关 的 
材料 。 由 于 网 络 可 以 被 看 成 是 一 个 图 ， 这 种 方法 可 以 看 作 是 一 个 结 点 的 推荐 问题 。 结 点 的 
推荐 问题 与 网 络 搜索 问题 紧密 相关 。 事 实 上 ， 这 两 个 问题 都 需要 使 用 各 种 形式 的 排名 算 
法 。 这 些 方法 的 一 个 关键 组 成 部 分 就 是 PageRank 算法 的 使 用 。 因 此 ， 这 类 算法 也 统称 为 
个 性 化 的 PageRank 算法 。 在 兴趣 结 点 可 用 的 情况 下 ， 此 类 结 点 可 以 被 用 作 训 练 数据 ， 以 
确定 其 他 兴趣 结 点 。 这 一 问题 被 称 为 集合 分 类 。 一 个 紧密 相关 的 问题 是 社交 网 络 中 向 用 户 
推荐 好 友 (或 潜在 链接 ) 的 链接 推荐 或 是 链接 预测 问题 。 除 了 社交 网 络 ， 链 接 预 测 问题 还 
有 许多 其 他 应 用 。 有 趣 的 是 ， 排 名、 集合 分 类 和 链接 推荐 问题 之 间 密 切 相 关 。 事 实 上 ， 对 
一 个 问题 的 解决 方案 通常 是 作为 其 他 问题 的 子 程序 。 例 如 ， 排 名 和 链接 预测 方法 通常 在 用 
户 -物品 图 中 用 于 提供 传统 产品 推荐 。 事 实 上， 在 许多 可 以 转化 为 图 的 问题 背景 下 ， 这 些 
方法 能 被 用 于 提供 推荐 。 第 10 章 中 讨论 结 点 和 链接 的 推荐 方法 。 

1.4.4.2 考虑 社会 影响 的 产品 和 内 容 推 荐 

网 络 连接 与 其 他 社交 线索 能 帮助 进行 多 种 形式 的 产品 和 内 容 的 推荐 ， 这 个 问题 也 被 称 
为 病毒 式 营 销 。 在 病毒 式 营销 中 ， 使 用 口碑 系统 推荐 产品 。 为 了 实现 这 一 目标 ， 至 关 重 要 
的 是 要 能 够 在 网 络 中 确定 有 影响 力 和 实时 相关 的 实体 。 这 个 问题 在 社交 网 络 中 被 称 为 影响 
力 分 析 [287] 。 当 影响 因素 是 话题 敏感 时 ， 这 一 问题 在 社会 流 情况 中 的 诸多 变形 已 经 被 提 
出 。 例 如 ， 在 Twitter 中 决定 对 特定 话题 有 影响 力 的 用 户 可 能 对 病毒 式 营销 很 有 和 用。 在 其 
他 情况 下 ， 社交 线 索 可 以 从 社交 网 络 得 出 从 而 做 出 推荐 。 这 些 方法 将 在 第 10 章 讨论 。 

1.4.4.3 信任 推荐 系统 

很 多 社交 媒体 网 站 ， 如 Epinions] a} Slashdot!’%) ， 都 允许 用 户 表 达 彼 此 是 否 信任 ， 
无 论 是 以 一 种 直接 的 方式 还 是 通过 各 种 反馈 机 制 。 例 如 ， 用 户 可 以 在 对 其 他 用 户 的 评价 中 
表达 信任 或 不 信任 ， 或 对 其 他 用 户 直接 指明 信任 或 不 信任 的 关系 。 这 种 信任 信息 有 助 于 做 
出 更 具 健 壮 性 的 推荐 。 例 如 ， 基 于 用 户 的 近邻 方法 应 该 使 用 值得 信赖 的 人 群 得 到 具有 健壮 
性 的 推荐 。 最 近 的 研究 显示 [L221'588,616] ， 信 任 信息 的 嵌入 可 以 使 推荐 更 具 健壮 性 。 第 11 章 
中 介绍 信任 推荐 系统 。 

1.4.4.4 利用 社会 性 标签 反馈 作 推 荐 

用 户 有 许多 方法 在 推荐 系统 中 艇 和 人 他们 的 反馈 意见 。 最 常见 的 反馈 形式 是 社会 性 标签 
(social tagging)。 这 种 形式 的 反馈 在 内 容 共 享 的 网 站 上 十 分 常见 ， 如 Flickr (照片 分 
#0692] 、last. fmi®9 (音乐 分 享 ) 和 Bibsonomy!) 〈 科 学 文献 共享 )。 标 签 是 用 户 用 来 
为 内 容 添加 短 关键 词 信息 的 元 数据 。 例 如 ， 一 个 音乐 网 站 上 的 用 户 可 能 会 标记 迈克 尔 。 
杰克 进 的 专辑 《惊悚 》 为 “ 播 滚 >”。 此 类 标记 提供 有 关 用 户 兴 趣 和 物品 内 容 两 方面 的 有 用 
信息 〈 因 为 标签 与 这 两 者 相关 联 )。 标 签 充当 做 出 推荐 的 有 用 内 容 ， 上 下 文敏 感 的 推荐 方 
法 可 以 直接 将 这 种 反馈 纳入 推荐 过 程 。 其 他 一 些 专 门 的 方法 也 已 在 推荐 过 程 中 使 用 社会 性 
标签 反馈 信息 。 第 11 章 将 详细 讨论 这 些 方法 。 


1.5 高 级 论题 和 应 用 
本 书 还 将 介绍 一 些 高 级 的 论题 和 应 用 。 这 些 论题 将 散布 在 书 中 的 对 应 位 置 ， 其 中 大 部 
分 会 在 第 12 章 和 第 13 章 中 集中 讨论 。 在 本 节 中 ， 我 们 简单 概述 这 些 论题 。 
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1.5.1 推荐 系统 中 的 冷 启动 问题 


推荐 系统 的 主要 问题 之 一 是 ， 最初 可 用 评分 数据 量 相 对 较 小 。 在 这 种 情况 下 ， 它 难以 
应 用 传统 的 协同 过 滤 模 型 。 在 冷 启 动 存在 的 情况 下 ， 虽然 内 容 和 信息 不 总 是 可 获得 ,但 是 
基于 内 容 的 方法 和 基于 知识 的 方法 比 协 同 模型 更 加 具有 健壮 性 。 因 此 ， 大 量 的 特定 方法 被 
设计 来 改善 推荐 系统 中 的 冷 启动 问题 。 在 整 本 书 中 也 强调 了 不 同 模型 的 冷 启动 问题 的 敏感 
性 以 及 可 能 的 解决 方案 。 


1.5.2 抗 攻 击 推荐 系统 


推荐 系统 的 使 用 对 销售 各 类 产品 及 服务 有 重大 的 影响 。 因 此 ， 产 品 和 服务 的 卖家 有 
明显 的 经 济 刺激 机 制 以 操纵 推荐 系统 的 输出 ， 如 将 自己 产品 的 虚 高 评价 提交 给 推荐 系 
统 。 恶 意 的 竞争 对 手 可 能 会 对 竞争 对 手 的 产品 提交 有 负面 的 评论 。 多 年 来 ,许多 复杂 的 
策略 已 经 被 开发 来 攻击 推荐 系统 。 这 种 攻击 是 极 不 可 取 的 ， 因 为 它们 降低 了 推荐 系统 的 
整体 效用 ， 降 低 了 合法 用 户 体验 的 质量 。 因 此 ， 为 了 构建 具有 健壮 性 的 推荐 系统 ， 必 须 
有 用 来 应 对 这 些 恶 意 攻击 的 方法 。 第 12 章 中 详细 讨论 攻击 方法 ， 包 括 各 种 类 型 的 算法 
的 攻击 的 敏感 性 。 此 外 ,第 12 章 将 提供 一 系列 应 对 这 些 攻 击 、 构 建 具有 健壮 性 推荐 系 
统 的 策略 。 


1.5.3 组 推荐 系统 
组 推荐 系统 0D88] 的 概念 是 传统 推荐 系统 一 个 有 趣 的 延伸 。 在 这 种 情况 下 ， 推 荐 系统 是 
针对 一 组 用 户 而 不 是 单个 用 户 推荐 某 一 特定 活动 。 例 子 可 能 包括 一 群 人 [08,653] 一 起 看 电影 


或 电视 ,健身 中 心音 乐 的 选择 , 或 向 一 群 游客 提供 旅行 推荐 。 最 早 的 系统 ， 如 
PolyLenst1%] ， 设 计 模 型 集中 处 理 个 体 的 偏好 来 做 出 组 推荐 。 然 而 ， 多 年 过 后 ,设计 组 推 
荐 系统 的 共识 演变 为 设计 出 比 简单 组 合用 户 个 体 需 求 更 好 并 且 能 根据 不 同 用 户 间 的 互动 而 
做 出 推荐 [4' 引 的 组 推荐 系统 。 由 于 用 户 往 往 会 基于 社会 心理 、 情 感 的 传染 和 整合 等 现象 
对 彼此 产生 影响 ,简单 的 平均 策略 在 处 理 成 分 混杂 、 包 含 不 同 口味 用 户 的 组 时 并 不 是 很 
好 。 关 于 这 个 问题 的 详细 研究 可 以 在 [45，271，407」 中 找到 。 第 13 章 的 13. 4 节 讨 论 组 
推荐 系统 。 


1.5.4 多 标准 推荐 系统 


在 多 标准 系统 中 ,评分 可 能 是 基于 单个 用 户 的 多 个 评价 标准 而 产生 的 。 例 如 ， 用 户 可 
能 基于 情节 、 音 乐 、 特 效 等 对 电影 进行 评分 。 这 种 技术 往往 通过 将 用 户 对 物品 的 使 用 建 模 
为 对 应 不 同 评价 标准 的 评分 向 量 给 出 推荐 。 在 多 标准 推荐 系统 中 ， 只 采用 传统 推荐 系统 的 
总 体 评分 通常 会 获得 误导 的 结果 。 例 如 ， 如 果 两 个 用 户 对 一 部 电影 有 相同 的 整体 评分 ， 但 
他 们 对 情节 和 音乐 的 部 分 评分 有 很 大 不 同 ， 这 时 这 两 个 用 户 不 应 该 从 基于 协同 过 滤 算 法 的 
角度 被 视 作 类 似 。 在 一 些 多 标准 系统 中 ， 用 户 可 能 根本 没有 给 出 整体 评分 。 在 这 种 情况 
下 ， 问 题 更 具 挑 战 性 ， 因 为 它 需 要 基于 多 个 标准 向 不 同 的 用 户 提供 物品 的 推荐 排行 清 
M. [11, 398, 604] 从 不 同 的 角度 对 多 标准 推荐 系统 进行 了 很 好 的 概述 。 

已 经 证 实 527199] ， 一 些 组 推荐 系统 的 方法 也 适用 于 多 标准 推荐 系统 。 然 而 ， 由 于 强调 
推荐 过 程 的 不 同方 面 ， 这 两 个 论题 通常 被 视 为 不 同 。 多 标准 推荐 系统 方法 在 第 13 HE 13. 5 
节 中 讨论 。 
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1.5.5 推荐 系统 中 的 主动 学 习 


推荐 系统 中 的 一 个 重大 挑战 是 获取 足够 的 评分 使 预测 具有 健壮 性 。 评 分 矩阵 稀 琉 仍然 
是 推荐 系统 有 效 运作 的 一 个 重大 障碍 。 获得 足够 的 评分 可 以 减少 评分 矩阵 稀 朴 的 问题 。 实 
际 使 用 的 很 多 推荐 系统 有 鼓励 用 户 输入 评分 以 完善 系统 的 机 制 。 例 如 ， 用 户 可 能 会 为 某 些 
物品 评分 而 获得 奖励 。 一 般 情况 下 ， 由 于 获得 过 程 的 高 成 本 ， 通 常 很 难 从 单个 用 户 处 获得 
太 多 的 评价 。 因 此 ， 必 须 明智 地 选择 由 特定 用 户 进 行 评 分 的 物品 。 例 如 ， 如 果 一 名 用 户 已 
经 评价 了 大 量 的 动作 片 ， 那 么 要 求 该 用 户 去 评价 另 一 部 动作 电影 对 预测 其 他 的 动作 电影 评 
分 帮助 不 大 ， 并 且 对 预测 属于 无 关 种 类 的 电影 评分 的 帮助 甚至 更 少 。 另 一 方面 ， 要 求 用 户 
评价 不 太 热门 种 类 的 电影 将 对 预测 这 种 类 型 的 电影 评分 有 显著 帮助 。 当 然 ， 如 果 用 户 被 要 
求 评 价 无 关 的 电影 ， 他 不 一 定 能 够 提供 反馈 ， 因 为 他 可 能 根本 没有 看 过 那 部 电影 。 因 此 ， 
在 推荐 系统 的 主动 学 习 问 题 中 有 许多 在 其 他 问题 领域 〈 如 分 类 问题 ) 没有 遇 到 的 有 趣 权 衡 
问题 。 推 荐 系统 的 主动 学 习 方法 的 回顾 可 以 在 L513] 中 找到 。 第 13 章 13. 6 节 中 将 讨论 主 
动 学 习 方 法 。 


1.5.6 推荐 系统 中 的 隐私 问题 


在 很 大 程度 上 ， 推 荐 系统 的 建立 基于 用 户 显 式 或 是 隐 式 的 反馈 。 这 种 反馈 包含 有 关 用 
户 兴 趣 的 重要 信息 ， 并 且 可 能 泄露 他 们 的 政治 观点 和 个 人 喜好 。 在 很 多 情况 下 ， 这 些 信息 
可 能 高 度 敏感 ， 从 而 导致 隐私 问题 。 隐 私 问题 是 很 重要 的 ， 因 为 它们 妨碍 了 推荐 算法 的 必 
要 的 数据 采集 ， 而 能 采集 到 真实 的 信息 对 算法 的 发 展 至 关 重 要 。 例 如 ，Netflix 大 奖 赛 的 
数据 集 对 推荐 系统 的 作用 巨大 ， 它 对 许多 最 先进 的 算法 的 发 展 起 了 促进 作用 [73] 。 近 年 
来 ， 在 各 种 数据 挖掘 问题 的 背景 下 ， 隐 私 问 题 一 直 在 探索 之 中 [2] 。 推 荐 领域 也 不 例外 ， 
许多 用 于 保护 隐私 的 算法 3384,485] 被 开发 出 来 。 推 荐 系统 中 的 隐私 问题 将 在 第 13 章 的 
13.7 节 中 详细 讨论 。 


1.5.7 应 用 领域 


推荐 系统 被 用 于 许多 应 用 领域 ， 如 零售 、 音 乐 、 目 录 网络 搜索 、 查 询 和 计算 广告 
学 。 上 述 领 域 中 有 一 些 需 要 特定 的 方法 调整 推荐 系统 。 特 别 地 ， 第 13 章 将 研究 三 个 具体 
领域 的 推荐 系统 : 新 闻 推 荐 、 计 算 广 告 和 互惠 推荐 系统 。 实 际 上 ， 所 有 这 些 应 用 领域 都 是 
以 网 络 为 中 心 的 。 推 荐 系统 的 一 个 重要 方面 是 它们 拥有 强大 的 用 于 跟踪 和 识别 用 户 长 期 兴 
趣 的 用 户 识别 机 制 。 在 许多 网 络 领域 ， 强 大 的 用 户 识别 机 制 不 能 实现 。 在 这 种 情况 下 ， 用 
推荐 技术 引导 用 户 是 不 可 行 的 。 此 外 ， 由 于 新 物品 〈 广 告 ) 不 断 进 入 和 离开 系统 ， 多 臂 财 
博 机 这 类 特定 的 方法 尤其 合适 。 因 此 ， 第 13 章 将 讨论 在 哪些 情况 下 推荐 系统 可 以 用 在 这 
些 应 用 领域 。 针 对 现 有 推荐 系统 的 特定 变化 也 会 在 第 13 章 中 和 类 似 多 臂 赌 博 机 这 类 高 级 
算法 一 起 讨论 。 


1.6 小 结 


本 书 将 对 几 类 重要 的 推荐 系统 算法 进行 简介 ， 包 括 它 们 的 优 缺 点 以 及 它们 最 有 效 的 特 
定 场景 。 推 荐 问题 将 在 不 同 的 特定 领域 场景 和 不 同类 型 的 输入 信息 以 及 知识 基础 的 背景 下 
进行 研究 。 本 书 将 说 明 推 荐 问题 是 一 个 丰富 的 值得 研究 的 问题 ， 当 输入 信息 类 型 与 具体 场 
景 不 同时 ， 推 荐 问题 会 具有 不 同 的 表现 形式 。 此 外 ,不 同 算法 的 有 效 性 可 能 会 随 具 体 问题 
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设置 的 不 同 而 不 同 。 在 许多 情况 下 ， 当 开发 混合 推荐 系统 时 会 有 效 地 利用 这 些 权衡 。 

许多 更 高 级 的 话题 ， 比 如 攻击 模型 、 组 推荐 系统 、 多 标准 系统 和 主动 学 习 系 统 将 在 本 
书 的 后 续 章 节 进 行 研究 。 我 们 还 将 讨论 一 些 特定 的 应 用 程序 ， 比 如 新 闻 的 推荐 和 计算 广 
告 。 希望 本 书 能 为 读者 提供 推荐 系统 在 不 同 场景 中 的 应 用 的 全 面 概述 。 


1.7 .相关 工作 


20 世纪 90 年 代 中 期 ， 推 荐 系统 越 来 越 受 欢迎 ， 例 如 GroupLensL5 趾 推荐 系统 。 自 那 
时 起 ， 推 荐 系统 的 各 类 模型 如 协同 系统 、 基 于 内 容 的 系统 和 基于 知识 的 系统 等 被 广泛 研 
究 。 关 于 此 主题 的 详细 综述 和 书籍 可 以 在 [5，46，88，275，291，307，364，378，505， 
529, 570] 中 找到 。 其 中 ，[5] 是 一 篇 很 好 的 综述 ， 对 基本 思想 进行 了 很 好 的 概述 。 更 多 
最 近 的 综述 可 以 在 [88，378，570] 中 找到 。[544] 是 关于 使 用 非 传 统 信息 (比如 社会 、 
实时 、 辅 助 信息 或 上 下 文 相 关 的 数据 ) 的 推荐 系统 的 综述 。 推 荐 系统 研究 的 分 类 可 以 在 
[462] 中 找到 。L275] 给 出 一 本 极 好 的 介绍 书 ， 而 详细 的 手册 [05 详 细 讨论 了 推荐 系统 的 
各 个 方面 。 

协同 过 滤 和 不 完整 评分 和 矩阵 的 问题 与 传统 文献 上 的 缺失 数据 分 析 [a2 密切 相 关 ， 虽 然 
这 两 个 领域 经 常 被 独立 研究 。[33，98，501，540】] 最 早 研 究 了 基于 用 户 的 协同 过 滤 模 型 。 
基于 用 户 的 方法 是 利用 相似 用 户 对 同一 物品 的 评分 来 进行 预测 。 虽 然 这 种 方法 最 初 很 受 欢 
W, 但 是 它们 不 易于 扩展 ， 而 且 有 时 不 准确 。 随 后 ， 提 出 了 基于 物品 的 方法 81,360,524] ， 
其 中 计算 预测 评分 是 对 同一 用 户 与 类 似 物 品 的 评分 。 做 出 推荐 的 另 一 种 流行 方法 是 使 用 洪 
在 因子 模型 。 在 最 早 的 研究 中 ， 潜 在 因子 模型 是 独立 出 现在 推荐 5525] 和 缺失 值 分 析 C4] 上 
下 文中 的 。 最 终 这 些 方法 被 重新 发 现 ， 作 为 最 有 效 的 推荐 方法 [252,309,313,500,517] 。 除 此 以 
外 ， 降 维 方 法 也 被 用 来 减少 评分 矩阵 的 维 数 ， 从 而 提高 计算 从 用 户 到 用 户 或 是 从 物品 到 物 
品 的 相似 度 的 效率 [228,525] 。 然 而 ， 在 缺失 数据 分 析 方面 的 工作 只 是 与 推荐 文献 有 关 。 
协同 过 滤 的 其 他 相关 模型 包括 使 用 如 聚 类 9867'360,608] 、 分 类 或 关联 模式 挖掘 629 的 数据 控 
掘 模型 。 稀 玻 性 是 这 类 系统 中 的 主要 问题 ， 各 种 基于 图 的 系统 可 用 于 减轻 数据 稀 朴 性 
问题 [33.204,647] 3 

基于 内 容 的 方法 与 信息 检索 文献 (144, 364, 400] 的 紧密 联系 在 于 在 推荐 过 程 中 使 
用 相似 的 检索 方法 。 文 本 分 类 方法 在 推荐 过 程 中 也 特别 有 用 。 各 种 文本 分 类 方法 的 详细 探 
讨 可 以 在 L22」 中 找到 。 一 些 最 早 基于 内 容 推荐 的 研究 在 [60，69] 中 可 以 找到 。[5] 中 
也 详尽 地 讨论 了 基于 内 容 的 推荐 。 

由 于 物品 领域 非常 复杂 ， 许 多 情况 下 协同 和 基于 内 容 的 方法 对 于 获得 有 意义 的 推荐 是 
没有 用 的 。 在 这 种 情况 下 ， 基 于 知识 的 推荐 系统 [1] 特别 有 用 。 人 口 统计 推荐 系统 在 
[320, 475, 508] 中 讨论 ， 而 [239] 讨论 了 基于 效用 的 推荐 系统 。 [598] 是 一 篇 关于 推 
荐 系统 的 很 好 综述 。 

针对 不 同 背 景 设 计 不 同 的 推荐 系统 会 更 有 效 。 推 荐 系统 的 评估 [246 对 于 判断 不 同 算法 
的 效率 很 重要 。 在 [538] 中 可 以 找到 一 个 详细 的 评估 方法 的 讨论 。 混 合 系统 P17 可 以 结合 不 
同 的 推荐 系统 ， 以 获得 更 有 效 的 结果 。 此 外 ， 集 成 方法 还 可 以 结合 相同 类 型 的 算法 以 获得 更 
有 效 的 结果 。Netflix 大 奖 赛 的 顶尖 参赛 作品 ， 例 如 “The Ensemble”[709 #1 “Bellkor’s Prag- 
matic Chaos”[31!] ， 都 是 集成 方法 。 

推荐 系统 需要 专门 的 方法 ， 使 它们 在 各 种 不 同 的 情形 下 更 有 效 。 有 效 使 用 这 种 系统 的 
一 个 主要 问题 是 冷 启 动 问题 ， 即 推荐 过 程 启动 之 初 没 有 足够 数量 的 评分 可 用 。 因 此 ， 通 常 
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有 专门 的 方法 来 解决 这 一 问题 [533] 。 在 许多 情况 下 ， 推 荐 的 上 下 文 ， 如 位 置 、 时 间或 社交 
信息 ， 可 以 用 于 显著 改善 推荐 过 程 [] 。 每 个 不 同上 下 文 都 被 当 作 推荐 系统 的 一 个 独立 领域 
来 进行 研究 。 时 间 感 知 的 推荐 系统 在 [310] 中 进行 了 研究 ， 而 [26] 中 讨论 了 位 置 感知 
的 推荐 系统 。 社 会 环境 是 特别 多 样 的 ， 因 为 它 允 许 各 种 各 样 的 问题 背景 。 你 可 以 在 社交 网 
络 中 推荐 结 点 或 链接 ， 也 可 以 通过 社交 线索 的 帮助 推荐 产品 。 这 些 背 景 与 社交 网 络 分 析 领 
域 55 中 密切 相关 。 每 个 排名 、 结 点 分 类 和 链接 预测 的 传统 问题 32,5561 都 可 以 看 作 是 社交 网 
络 中 的 结构 推荐 问题 。 此 外 ， 在 社交 网 络 背 景 之 外 ， 这 些 形式 的 推荐 也 很 有 有 用。 有趣 的 
E. 通过 将 用 户 - 物 品 的 相互 作用 转化 为 一 个 二 分 图 结构 6! ， 链 接 预 测 等 方法 也 可 以 用 
于 传统 推荐 。 社 交 信 息 的 一 个 不 同形 式 是 将 社交 线索 用 于 生成 推荐 6588] 。 社 交 网 络 结构 也 
可 以 直接 用 于 病毒 式 营 销 应 用 [287] 。 

由 于 推荐 系统 往往 有 助 于 产品 的 销售 ， 这 些 产 品 或 竞争 对 手 的 卖家 有 显著 的 动机 来 通 
过 操纵 评分 攻击 推荐 系统 。 在 这 种 情况 下 ， 推 荐 质量 不 会 很 高 ， 因 此 不 可 信赖 。 近 年 来 ， 
大 量 的 精力 专门 讨论 值得 信赖 的 推荐 系统 的 设计 9 。 [45，271，272，407，408，412， 
413, 415, 653] 讨论 了 不 同 的 组 推荐 系统 。 多 标准 推荐 系统 在 [11，398，604] 中 进行 
Tite. (513) 讨论 了 主动 学 习 方 法 。 隐 私 保护 方 法 在 [20] 中 进行 了 大 致 的 讨论 。 最 早 
研究 保护 隐私 推荐 的 论题 在 [133，451，484，485，667] 中 介绍 。 由 于 数据 的 高 维 性 质 ， 
隐私 对 这 类 系统 仍然 是 一 个 重大 的 挑战 。L30，451] 中 说 明了 在 不 同类 型 的 数据 集 上 如 何 
利用 维 数 进行 隐私 攻击 。 


1.8 习题 


1. 解释 在 推荐 系统 的 设计 中 为 什么 一 元 评分 是 明显 不 同 于 其 他 类 型 的 评分 。 

2. 讨论 在 何 种 情况 下 基于 内 容 的 推荐 不 如 基于 评分 的 协同 过 滤 方 式 。 

» 假设 你 需要 设计 一 个 系统 ， 能 利用 可 视 化 界面 来 判断 用 户 所 感 兴趣 的 产品 。 这 种 情况 下 应 使 用 哪 种 类 
别 的 推荐 系统 呢 ? 

4. 讨论 在 推荐 过 程 中 位 置 起 着 重要 作用 的 一 个 场景 。 

~ 本 章 提 到 协同 过 滤 可 以 视 为 分 类 问题 的 泛 化 这 一 事实 。 讨 论 一 种 将 分 类 算法 变 成 协同 过 滤 的 简单 方 
法 。 解 释 为 什么 难以 在 稀 朴 评分 矩阵 上 使 用 该 方法 。 

假设 你 有 一 个 能 够 预测 评分 的 推荐 系统 。 如 何 利用 它 来 设计 top- 推荐 系统 ? 基于 对 预测 算法 的 应 用 
数量 ， 讨 论 该 系统 的 计算 复杂 性 。 在 什么 情况 下 ， 这 种 做 法 会 变 得 不 切实 际 ? 
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基于 近邻 的 协同 过 滤 





邻居 帮助 邻居 时 ， 社 区 便 更 加 健壮 了 。 
—Jennifer Pahlka 


2.1 引言 


基于 近邻 的 协同 过 滤 算 法 ， 也 被 称 为 基于 内 存 的 算法 (memory-based algorithm), Œ 
最 早 的 为 协同 过 滤 而 开发 的 算法 之 一 。 这 类 算法 是 基于 相似 的 用 户 以 相似 的 行为 模式 对 物 
品 进 行 评 分 ， 并 且 相 似 的 物品 往往 获得 相似 的 评分 这 一 事实 。 基 于 近邻 的 算法 分 为 以 下 两 
个 基本 类 型 : 

1) 基于 用 户 的 协同 过 滤 : 这 种 类 型 中 ， 把 与 目标 用 户 A 相似 的 用 户 的 评分 用 来 为 A 
进行 推荐 。 这 些 “ 同 组 群体 ”对 每 件 物品 的 评分 的 加 权 平 均值 将 用 来 计算 用 户 A (对 物 
an) 的 预计 评分 。 

2) 基于 物品 的 协同 过 滤 : 为 了 推荐 目标 物品 B， 首 先 确定 一 个 物品 集合 S,， 使 S 中 的 
物品 与 B 相似 度 最 高 。 然 后 ， 为 了 预测 任意 一 个 用 户 A 对 B 的 评分 ， 需 要 确定 A 对 集合 
S 中 物品 的 评分 。 这 些 评分 的 加 权 平 均值 将 用 来 计算 用 户 A 对 物品 B 的 预计 评分 。 

基于 用 户 的 协同 过 滤 与 基于 物品 的 协同 过 滤 的 一 个 重要 区 别 是 : 前 者 利用 相似 用 户 的 
评分 来 预测 该 用 户 的 评分 ; 后 者 利用 用 户 自 己 对 相似 物品 的 评分 来 预测 用 户 对 其 他 物品 的 
评分 。 前 者 利用 用 户 〈 评 分 矩阵 的 行 ) 之 间 的 相似 性 来 定义 近邻 ;后 者 利用 物品 〈 评 分 矩 
阵 的 列 ) 之 间 的 相似 性 定义 近邻 。 因 此 ， 这 两 种 方法 是 互补 的 关系 。 但 是 ， 这 两 种 方法 得 
到 的 推荐 类 型 有 明显 差别 。 

为 了 进一步 的 讨论 ， 我 们 假设 用 户 一 物品 评分 矩阵 是 一 个 不 完全 的 mXn 和 矩阵 R= 
Lr jj， 包含 m 个 用 户 和 nn 件 物品 ， 并 且 假 设 它 只 有 一 小 部 分 是 已 知 的 或 已 观测 的 。 和 其 
他 所 有 协同 过 滤 算 法 一 样 ， 基 于 近邻 的 协同 过 滤 算 法 能 够 被 形式 化 为 下 列 两 种 方式 之 一 : 

1) 预测 用 户 一 物品 组 合 的 评分 : 这 是 最 简单 、 最 原始 的 推荐 系统 形式 。 这 种 情况 下 ， 
预测 了 用 户 u 对 于 物品 j 的 评分 7 。 

2) 确定 前 上 上 件 物品 或 前 k 个 用 户 : 实际 上 ， 商 家 大 部 分 时 候 并 不 需要 知晓 每 个 用 户 一 
物品 评分 的 具体 值 。 了 解 与 特定 用 户 最 相关 的 前 & 件 物品 或 者 与 特定 用 户 最 相关 的 前 & 个 
用 户 反 而 更 加 有 意义 。 与 确定 前 个 用 户 相 比 ， 确 定 前 & 件 物品 的 问题 更 加 普遍 。 这 是 由 
于 前 者 将 用 户 置 于 核心 地 位 而 向 用 户 呈 现 推荐 的 物品 。 在 传统 的 推荐 算法 中 ，“top-k 问 
题 ” 几 乎 都 是 指 找 到 前 件 物品 而 非 前 & 个 用 户 的 过 程 。 然 而 对 于 商家 来 说 ， 后 者 在 决定 
市 场 运 营 的 最 佳 目标 用 户 时 同样 有 用 。 

上 述 的 两 种 问题 具有 紧密 的 联系 。 例 如 ， 为 了 判定 为 特定 用 户 推 荐 的 前 & 件 物品 ， 可 
以 先 预测 这 位 用 户 对 每 件 物品 的 评分 。 为 提高 效率 ， 基 于 近邻 的 方法 在 线 下 预先 计算 一 些 
预测 所 需 的 数据 。 然 后 利用 这 些 预先 计算 的 数据 可 以 更 高 效 地 计算 物品 的 评分 。 

本 章 将 讨论 多 种 基于 近邻 的 方法 。 我 们 将 学 习 评 分 矩阵 的 某 些 性 质 对 协同 过 滤 算 法 带 
来 的 影响 。 另 外 ， 我 们 将 研究 评分 矩阵 对 推荐 的 有 效 性 和 效率 的 影响 。 我 们 将 讨论 利用 聚 
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类 和 基于 图 模型 的 表示 方法 来 实现 基于 近邻 的 推荐 系统 。 我 们 还 会 讨论 近邻 方法 和 回归 建 
模 技 术 之 间 的 联系 。 回 归 方 法 为 基于 近邻 的 方法 提供 了 一 种 优化 框架 。 特 别 是 ， 基 于 近邻 
的 方法 被 证 明 是 最 小 二 乘法 回归 模型 的 启发 式 近似 结 果 [723] 。 这 种 近似 相等 的 性 质 将 在 2. 6 
节 中 展示 。 这 样 的 优化 框架 也 为 将 近邻 方法 与 其 他 诸如 潜在 因子 模型 的 优化 方法 相 结合 铺 
平 了 道路 。 具 体 的 做 法 将 在 第 3 章 3. 7 节 中 详细 讨论 。 

本 章 组 织 结构 如 下 。2. 2 节 讨 论 评分 矩阵 的 很 多 关键 性 质 。2. 3 节 讨 论 基 于 近邻 的 协 
同 过 滤 算 法 中 的 关键 部 分 。2. 4 节 讨 论 如 何 利 用 聚 类 方法 加 速 基于 近邻 的 协同 过 滤 算 法 。 
2. 5 节 讨 论 使 用 降 维 方法 改进 基于 近邻 的 协同 过 滤 算 法 。 在 2.6 节 中 ,我 们 从 优化 模型 的 
视角 讨论 基于 近邻 的 方法 。 一 种 线性 回归 的 方式 被 用 于 模拟 在 基于 学 习 和 优化 的 框架 下 的 
近邻 模型 。2. 7 节 讨 论 如 何 使 用 图 形 表 示 来 解决 近邻 方法 中 的 稀疏 问题 。2. 8 节 是 本 章 


小 结 。 


2.2 评分 矩阵 的 关键 性 质 


正如 之 前 所 讨论 的 ， 我 们 假设 RRB m Xn 的 评分 和 矩阵， 其 中 和 2 表示 用 户 数 , 妈 表示 
YRO ro RRAN u 对 物品 7 的 评分 。 和 矩阵 中 只 有 小 部 分 数据 是 已 知 的 ， 我 们 称 已 知 的 
数据 为 训练 数据 ， 未 知 的 数据 为 测试 数据 。 这 样 的 定义 直接 与 分 类 、 回 归 和 半 监 督学 习 算 
法 中 的 定义 相对 应 [2 。 在 分 类 问题 中 ， 所 有 未 知 的 数据 都 包含 在 特定 的 列 中 ， 被 称 为 类 
变量 或 因 变 量 。 因 此 ， 推 荐 问题 可 以 看 成 是 分 类 和 回归 问题 的 泛 化 。 

根据 具体 应 用 的 不 同 ， 评 分 可 以 分 为 如 下 几 类 : 

D 连续 评分 : 这 种 评分 是 连续 变量 ， 分 值 对 应 着 对 眼前 物品 的 喜 恶 程度 。 比 如 Jester 
joke 推荐 引擎 C228'589] 就 是 使 用 这 种 评分 的 一 个 例子 ， 这 种 引擎 允许 评分 从 一 10 一 10 连续 
变化 。 其 缺点 是 为 用 户 带 来 了 要 从 无 穷 多 个 数 中 想 出 一 个 的 负担 ， 因 此 采用 这 种 方式 的 相 
对 稀少 。 

2) 间隔 评分 : 这 种 评分 通常 采用 5 分 制 或 7 分 制 ， 当 然 ， 也 可 能 是 10 分 制 或 20 分 
制 。 其 实例 可 以 是 1~5, —2~2 或 者 1 一 7 的 整数 。 一 个 重要 的 假设 是 令 分 值 明 确定 义 评 
分 之 间 的 差距 ， 并 且 通 常情 况 下 分 值 是 等 距 的 。 

D 顺序 评分 : 顺序 评分 与 间隔 评分 十 分 相近 ， 唯 一 的 不 同 是 顺序 评分 使 用 有 序 的 分 
类 值 ， 例 如 “强烈 反对 ?”“ 反 对 ”“ 保 留意 见 ” “赞同 ” “强烈 赞同 ”。 顺 序 评 分 与 间隔 评分 
主要 的 区 别 在 于 : 顺序 评分 不 要 求 相 邻 评 分 等 距 。 然 而 ， 这 仅仅 是 理论 情况 ， 实 际 上 这 些 
不 同 的 分 类 值 常常 被 赋予 等 距 的 实用 的 数值 。 比 如 令 “ 强 烈 反 对 ”为 1 分 “强烈 赞同 ” 
为 5 分 。 在 这 种 情况 下 ， 顺 序 评分 几乎 等 同 于 间隔 评分 。 通 常 来 说 ， 为 避免 偏差 ， 正 面 评 
价 与 负面 评价 的 数目 是 相等 的 。 当 设置 偶数 种 评价 时 ， 不 提供 “保留 意见 ”选项 ， 这 种 方 
法 就 是 强迫 选择 法 ， 因 为 你 必须 表明 立场 。 

4) 二 元 评分 : 在 二 元 评分 中 ， 仅 提供 两 个 选项 ， 分 别 对 应 正面 与 负面 的 评价 。 
评分 可 以 看 作 是 间隔 评分 与 顺序 评分 的 特殊 情况 。 例 如 ， Pandora 网络 广播 站 让 用 户 能 名 
选择 喜欢 或 不 喜欢 特定 的 音乐 曲目 。 二 元 评分 迫使 用 户 做 出 选择 ， 以 防止 用 户 因 持 中 立 态 
度 而 总 是 不 做 出 评价 。 

5) 一 元 评分 : 这 种 系统 允许 用 户 对 某 件 物品 选择 一 个 正面 的 选项 ， 但 不 提供 负面 选 
项 。 这 往往 是 许多 真实 世界 中 的 设置 ， 比 如 Facebook 中 使 用 的 “喜欢 ”按钮 。 更 进一步 ， 
一 元 评分 可 以 从 顾客 的 操作 中 导出 。 例 如 ， 顾 客 购买 某 物品 的 行为 可 被 视 为 对 该 物品 的 一 
项 正面 投票 。 另 一 方面 ， 顾 客 没有 购买 某 件 物 品 并 不 一 定 意 味 着 顾客 不 喜欢 这 件 物 品 。 一 
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元 评分 很 特别 ， 因 为 它 简 化 了 用 于 设 定 评 分 的 专业 模型 的 开发 过 程 。 

值得 一 提 的 是 ， 从 客户 操作 中 推导 一 元 评分 也 被 称 为 隐 式 反馈 (implicit feedback), 
因为 反馈 不 是 由 客户 直接 提供 ,而 是 隐 式 地 从 客户 操作 中 推断 出 来 。 这 种 类 型 的 “评分 ” 
往往 更 容易 获得 ， 因 为 用 户 更 愿意 与 网 站 上 的 物品 进行 交互 操作 而 不 是 显 式 地 评价 它们 。 
隐 式 反馈 〈 即 一 元 评分 ) 可 以 被 看 成 是 分 类 和 回归 建 模 中 的 正 例 -无 标记 学 习 问 题 的 矩阵 
补 全 。 

物品 评分 的 分 布 常常 满足 现实 世界 中 的 长 尾 〈long-tail) 属性 。 根 据 这 一 属性 可 知 ， 
只 有 一 小 部 分 的 物品 被 频繁 地 评价 ， 这 类 物品 被 称 为 热门 物品 。 而 绝 大 多 数 的 物品 很 少 被 
评价 。 这 导致 了 分 布 的 高 度 偏 斜 。 图 2-1 阐述 了 一 个 评分 偏 斜 分 布 的 例子 。X 轴 代 表 物 品 
的 序号 ， 按 被 评价 的 频率 降序 排列 ， 立轴 代表 物品 被 评价 的 频率 。 显 然 ， 大 多 数 物 品 的 评 
价 次 数 很 少 。 这 样 的 评分 分 布 对 推荐 过 程 有 着 重要 意义 : 

D 在 许多 情况 下 ， 高 频 物品 倾向 于 利润 低 的 、 竞 争 相 对 激烈 的 物品 ， 另 一 方面 ， 低 
频 物品 的 利润 率 更 大 。 这 种 情况 下 ， 推 荐 低频 物品 对 商家 来 说 是 有 利 的 。 事 实 上 ， 分 析 表 
明 [49] ， 许 多 公司 ， 比 如 Amazon. com， 通 过 销售 长 尾部 分 的 物品 使 得 利润 最 大 化 。 

2) 由 于 长 尾部 分 的 物品 评价 较 少 ， 对 长 尾部 分 提供 健壮 的 评分 预测 通常 更 加 困难 。 
实际 上 ， 许 多 推荐 算法 倾向 于 推荐 热门 物品 而 非 冷 门 物品 073] 。 这 种 现象 制约 了 物品 推荐 
的 多 样 性 ， 用 户 可 能 常常 对 相同 的 推荐 感到 厌倦 。 

3) 长 尾 分 布 意味 着 经 常 被 评价 的 物品 数量 较 少 。 这 一 事实 对 基于 近邻 的 协同 过 滤 算 
法 有 着 重要 影响 ， 因 为 近邻 的 定义 常常 是 基于 这 些 经 常 被 评价 的 物品 。 在 很 多 情况 下 ， 热 
门 物品 的 评价 并 不 能 代表 冷门 物品 的 评价 ， 因 为 这 两 类 物品 在 评分 模式 上 有 着 本 质 区 别 。 
故 ， 预 测 过 程 可 能 产生 具有 误导 性 的 结果 。 正 如 在 第 7 章 7.6 节 中 将 要 谈 到 的 ， 这 种 现象 
也 能 造成 推荐 算法 的 误导 性 评价 。 

推荐 过 程 中 ， 需 要 考虑 评分 的 诸如 稀疏 性 和 长 尾 性 这 样 重要 的 特性 。 通 过 调整 推荐 算 
法 ,考虑 这 种 现实 属性 ， 就 能 够 获得 更 有 意义 的 预测 口 ?3'463,648] 。 
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2.3 通过 基于 近邻 的 方法 预测 评分 

基于 近邻 的 方法 的 基本 思想 是 ， 利 用 有 用户- 用户 的 相似 性 或 物品 -物品 的 相似 性 从 评分 
和 矩阵 中 获得 推荐 结果 。 近 邻 这 一 概念 说 明 我 们 需要 确定 相似 的 用 户 或 相似 的 物品 来 预测 评 
分 。 接 下 来 ,我们 将 讨论 如 何 使 用 基于 近邻 的 方法 来 预测 特定 的 用 户 - 物 品 组 合 的 评分 。 
基于 近邻 的 模型 有 如 下 两 个 基本 原则 : 

D 基于 用 户 的 模型 : 相似 的 用 户 对 相同 的 物品 有 相似 的 评价 。 因 此 ， 如 果 Alice 和 
Bob 在 过 去 对 电影 有 相似 的 评价 ， 我 们 就 能 利用 Alice 对 电影 《Terminator》 的 已 知 评价 
去 预测 Bob 对 这 部 电影 的 评价 。 

2) 基于 物品 的 模型 : 同一 位 用 户 对 相似 的 物品 评价 是 相似 的 。 因 此 ，Bob 对 《Alien》 
和 《Predator》 这 类 科幻 电影 的 评价 可 以 用 来 预测 他 对 相似 电影 《Terminator》 的 评价 。 

既然 协同 过 滤 问 题 能 被 看 作 是 分 类 /回归 建 模 问题 的 泛 化 ， 基 于 近邻 的 方法 也 能 被 看 
作 是 机 器 学 习 中 最 近邻 分 类 器 的 泛 化 。 分 类 是 基于 和 矩阵 的 行 相似 度 来 判定 最 近邻 ， 而 对 于 
协同 过 滤 来 说 ， 既 可 以 是 根据 行 也 可 以 是 根据 列 的 相似 度 来 判定 最 近邻 。 这 是 由 于 在 分 类 
问题 中 所 有 缺少 的 项 都 集中 在 某 一 列 ， 而 协同 过 滤 中 缺少 的 项 散布 在 不 同 的 行 和 列 〈 见 第 
1 章 1.3.1.3 节 )。 接 下 来 我 们 将 讨论 关于 基于 用 户 和 基于 物品 的 近邻 模型 的 细节 问题 ， 以 
及 它们 的 变形 。 


2.3.1 基于 用 户 的 近邻 模型 


在 这 种 方法 中 ， 定 义 基于 用 户 的 近邻 是 为 了 识别 与 目标 用 户 评分 相似 的 用 户 。 为 了 确 
定 目标 用 户 i 的 近邻 ,我 们 计算 她 与 其 他 用 户 的 相似 度 。 因 此 ， 需 要 定义 一 个 用 户 评 分 相 
似 度 函 数 。 由 于 用 户 评 价 尺度 的 差别 ， 计 算 这 样 的 相似 度 是 一 件 棘 手 的 事情 。 某 位 用 户 可 
能 倾向 于 喜欢 大 部 分 物品 ， 而 另 一 位 可 能 倾向 于 不 喜欢 大 部 分 物品 。 而 且 ， 不 同 的 用 户 可 
能 评价 了 不 同 的 物品 。 因 此 ， 需 要 定义 一 种 机 制 来 解决 这 些 问题 。 

对 于 拥有 m 位 用 户 和 nn 件 物品 的 mr Xn 的 评分 矩阵 R= 二 [x ]， 玉 表示 已 被 用 户 GT) 
u 评价 的 物品 的 序号 之 集 。 例 如 ， 如 果 用 户 〈 行 ) w 对 第 一 、 第 三 、 第 五 件 物 品 〈 列 ) 的 
评价 是 已 知 的 (观测 到 的 )， 其 余 未 知 ， 那 么 我 们 有 I 二 {1,3,5)。 因 此 ， 用 户 u Ao 均 评 
价 过 的 物品 集合 就 是 Ti 门 1,。 例 如 ， 如 果 用 户 vv 对 前 4 件 物品 做 出 了 评价 ,那么 IT, 二 {1， 
2,3,4}, Inf b=(1,3,5}11{1,2,3,45={1,3}, LN LAW GFA) BSR, AW 
WOR ERM. RAE I 门 I 定 义 了 两 位 用 户 均 已 知 的 评分 ， 利用 这 个 集合 ， 我 们 
可 以 计算 第 位 和 第 wv 位 用 户 的 相似 度 ， 得 到 的 相似 度 则 用 于 计算 近邻 。 

Pearson 相关 系数 (Pearson correlation coefficient) 可 以 用 来 衡量 用 户 u 和 有 用户， 之 
间 评 分 向 量 的 相似 程度 Simu, v), EF I 门 1, 代 表 了 用 户 和 用 户 v 均 做 出 评分 的 物品 
序号 集合 ， 仅 在 这 个 集合 中 的 物品 上 计算 相关 系数 。 第 一 步 是 利用 每 位 用 户 x 的 评分 计算 
每 位 用 户 的 平均 评分 pv : 


w= Vu € {1m} (2-1) 
He PR, 7 GHP) u 和 w 之 间 的 Pearson 相关 系数 定义 如 下 : 


pe pad? Cag — pv) 


Ne Me z nh (re =" 


人 = 的 


Sim(u,v) = Pearson(u,v) = 
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严格 来 说 ， 传 统 意义 上 的 Pearson(u, v) 要 求 仅 对 用 户 wu 和 用 户 v 均 做 出 评分 的 物品 
计算 ny Mus SAR (2-1) 不 同 ， 这 样 计算 所 得 到 的 j 取决 于 用 于 Pearson 相似 度 计算 
的 另 一 位 用 户 的 选择 。 然 而 ， 如 公式 (2-1) 所 示 ， 对 每 一 位 用 户 仅 计 算 一 次 ,是 很 常 
KL (并且 计算 简单 ) 的 。 我 们 很 难 证 明 两 种 计算 yj 的 方式 中 ， 哪 一 种 是 严格 意义 上 比 另 一 
种 更 优化 的 方法 。 在 两 位 用 户 仅 有 一 种 共同 评价 过 的 物品 这 种 极端 情况 下 ， 能够 证 明 使 用 
AX (2-1) 计算 jx 将 会 提供 更 多 的 信息 ， 因 为 在 传统 定义 下 ， 只 有 单个 共同 物品 时 ， 
Pearson 系数 的 含义 是 模糊 的 。 因 此 ， 在 本 章 中 ,我 们 将 使 用 更 简单 的 公式 (2-1)。 然 而 ， 
需要 读者 牢记 于 心 的 重要 的 一 点 是 ， 许 多 基于 用 户 方法 的 实现 中 在 计算 Pearson 系数 时 都 
成 对 计算 jy, 和 j, 。 

我 们 计算 目标 用 户 和 其 他 每 一 位 用 户 之 间 的 Pearson 系数 。 一 种 定义 目标 用 户 的 同 组 
群体 的 方法 是 选择 前 有 个 Pearson 系数 最 高 的 用 户 。 然 而 ， 这 样 挑选 出 的 同 组 群体 对 各 个 
物品 的 评分 情况 有 明显 差别 ， 因 此 需要 对 每 个 要 预测 评分 的 物品 都 单独 找 出 前 & 位 最 相似 
的 用 户 ， 这 样 对 每 个 物品 都 有 个 用 户 做 出 评分 。 这 些 评分 的 加 权 平 均值 能 作为 对 那 件 物 
品 的 预测 评分 。 在 这 里 ， 每 一 个 评分 都 以 做 出 评分 的 用 户 与 目标 用 户 之 间 的 Pearson 系数 
作为 权重 。 

这 种 方法 的 主要 问题 是 ， 不 同 的 用 户 可 能 以 不 同 的 尺度 做 出 评价 。 某 位 用 户 可 能 对 所 
有 物品 做 出 高 度 评价 ， 而 另 一 位 用 户 也 许 对 所 有 物品 给 出 消极 评价 。 因 此 ， 在 确定 同 组 群 
体 的 (加 权 ) 平均 评分 之 前 ， 用 户 的 评分 需要 按 行 进行 均值 中 心 化 。 用 户 对 物品 j 按 均 
值 中 心 化 后 的 评分 s, 被 定义 为 原始 评分 r,; 减 去 其 平均 评分 。 

Suj = ry — Ha Wu E {lem} (2-3) 
正如 之 前 所 说 ， 目 标 用 户 zx aT k A RHK A — Ey oh SY Bo EP od BY AOE 
均值 被 用 于 提供 一 个 均值 中 心 化 (mean-centered) 的 预测 。 再 把 目标 用 户 评分 的 平均 值 加 
上 这 个 预测 ， 得 到 用 户 v 对 物品 7 的 一 个 评分 预测 ”>w 。rw 顶部 的 帆 形 记号 “, ”表示 一 个 
预测 评分 ， 与 原始 评分 矩阵 中 已 知 的 评分 相对 。 令 P.G) 表示 与 目标 用 户 w 最 相近 的 & 位 
对 物品 j 做 出 评分 的 用 户 集合 S 。 作 为 一 种 启发 式 的 改进 ， 与 目标 用 户 u 相关 性 很 低 或 者 
负 相 关 的 用 户 有 时 会 从 P,(;) 中 剔除 。 于 是 ,整体 的 基于 近邻 的 预测 函数 表示 如 下 : 
2 ep Sim Cus v) © sy Dove Pc Sim(u,v) * Cry — po) 
Dive py | Simes) | Dive p, | SimCu,v) | 

这 种 泛 化 的 方法 可 以 允许 定义 不 同类 型 的 相似 度 函 数 或 预测 函数 ， 以 及 物品 被 淘汰 的 
策略 。 

基于 用 户 的 算法 实例 

考虑 表 2- 1 中 的 例子 ， 表 中 展示 了 1…5 这 5 位 用 户 对 标号 为 1…6 的 6 件 物品 的 评 
分 。 每 一 项 评分 从 (17) 中 取 值 。 假 设 目标 用 户 是 3 号 用 户 ， 我 们 希望 基于 表 2- 1 中 的 
评分 进行 物品 预测 。 为 决定 最 优 的 推荐 物品 ， 我 们 需要 计算 用 户 3 对 物品 1 和 物品 6 的 预 
测评 分 731 和 736 。 

第 一 步 要 计算 用 户 3 与 其 他 用 户 的 相似 度 。 我 们 在 这 一 表格 的 后 两 列 展示 了 两 种 计算 
相似 度 的 可 行 方法 。 倒 数 第 二 列 展示 了 评分 之 间 基 于 余弦 的 相似 度 ， 而 最 后 一 列 展示 了 基 
于 Pearson 相关 系数 的 相似 度 。 例 如 ，Cosine(1，3) 和 Pearson(1, 3) 的 值 计 算 如 下 : 


Faj == fn 十 一 一 Au a (2-4) 





O 在 许多 情况 下 ， 与 目标 用 户 x 相似 的 对 物品 j 做 出 评分 的 上 AT CA ANTE CE. OTOL ETE OD I BE 
时 尤其 常见 ， 比 如 已 知 的 评分 少 于 & 个 ， 此 时 PG) 的 基数 将 小 于 K。 
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Cosine( 1,3) — EEDA E eee Fe ed = 0. 956 
VE +72 +42 +52 o /3? +32? +127 412 
_ 6 —5.5) * @—2)+(7—5.5) * G@—2) + U—5.5) * 1—2) + G—5.5) x A—2) 
JIE FLATE LIFEN yE FP Fe eI 

=0. 894 

# 2-1 的 后 两 列 展示 了 用 户 3 与 其 他 用 户 的 余弦 相似 度 和 Pearson 相似 度 。 需 要 注意 
Fj, Pearson 相关 系数 更 具有 说 服 力 ， 并 且 其 符号 的 正 负 代 表 了 相似 或 相 异 。 根 据 两 种 相 
似 度 的 计算 方法 ， 与 用 户 3 最 相近 的 两 位 用 户 是 用 户 1 和 用 户 2。 根 据 用 户 1 和 用 户 2 的 
原始 评分 以 Pearson 系数 为 权重 的 加 权 平 均值 ， 对 用 户 3 未 评分 的 物品 1 和 6 得 到 如 下 
预测 : 








Pearson(1,3) 





_7* 0. 894+6 * 0. 939 
0. 894 +0. 939 

> 4% 0,894 +6 * 0.939 _ 

iy 0. 894 +0. 939 


= 6.49 


r31 


R 2-1 APS 和 其 他 用 户 间 的 用 户 - 用 户 相似 度 计 算 





物品 ID 一 
用 户 IDY 


Cosine(i, 3) Pearson(i, 3) 


CAL — ALP) CHF AP) 






1 2 


4 | 5 6 平均 评分 








6.5 0. 956 0. 894 





一 - 


7 | 6 4 
2 6 | 7 4 4.8 0. 981 0. 939 

3 2 | 3 ? | 2 1.0 1.0 

4 i} 4 2.5 0. 789 =1.0 

5 Ly 3 2 0. 645 一 0. 817 

因此 ， 物 品 1 应 该 先 于 物品 6 被 推荐 给 用 户 3。 更 进一步 ， 预 测 结果 显示 ， 对 用 户 3 

来 说 ， 与 她 评价 过 的 任何 电影 相 比 ， 她 或 许 会 更 喜欢 电影 1 和 电影 6。 然 而 ， 这 是 由 于 同 
组 群体 (1, 2) 远 比 目标 用 户 3 要 乐观 ， 他 们 给 出 更 多 积极 的 评分 。 现 在 ， 让 我 们 验证 均 
值 中 心 化 的 评分 对 预测 带 来 的 影响 。 表 2-2 展示 了 均值 中 心 化 的 评分 ， 与 之 对 应 的 均值 中 
心 化 的 预测 公式 (2-4) 如 下 所 示 : 
1.5%*0.894+1.2 * 0.939 












































elimi] wl win 
rn w 一 Gas > 
wlwlelwia 


ares 0. 894 + 0. 939 eA, a 
» 9 y — 1.5 * 0.894 —0.8* 0.939 
Fee 二 2 十 0. 894 +0. 939 ae 


于 是 ， 均 值 中 心 化 的 预测 结果 仍然 认为 物品 1 应 该 优先 于 物品 6 被 推荐 给 用 户 3。 然 而 ， 
一 个 与 之 前 的 推荐 至 关 重要 的 不 同 是 ， 在 这 种 情况 下 ， 物 品 6 的 预测 评分 只 有 0. 86， 低 于 
用 户 3 评价 过 的 任何 物品 。 这 与 之 前 物品 6 的 预测 评分 高 于 所 有 已 知 评分 的 情况 有 天 壤 之 
别 。 直 接 观察 表 2-1 (或 者 表 2-2)， 显 然 ， 用户 3 理应 给 予 物品 6 很 低 的 评分 (和 她 的 其 
他 物品 相 比 ，;， 因 为 与 她 最 相近 的 用 户 (用 户 1 和 2) 对 物品 6 的 评分 都 比 他 们 对 其 他 物品 
的 评分 低 。 由 此 可 见 ， 均值 中 心 化 能 够 就 已 知 的 评分 提供 更 好 的 相对 预测 。 在 许多 情况 
下 ， 这 人 么 做 也 会 影响 到 所 预测 物品 的 相对 顺序 。 这 种 结果 唯一 的 缺点 是 物品 6 的 预测 评分 
0. 86 超出 了 允许 的 评分 范围 。 这 样 的 评分 可 以 用 来 排名 ， 也 可 以 将 预测 值 修正 到 最 近 的 
允许 值 。 
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表 2-2 将 表 2-1 调整 为 均值 中 心 化 的 评分 矩阵 和 物品 -物品 的 余弦 相似 度 计 算 。 最 后 两 行 显示 
了 物品 1 和 物品 6 与 其 他 物品 的 调整 后 的 余弦 相似 度 
































Cosine (1, j) 
(物品 -物品 ) 





Cosine (6, j) 
(物品 = 物品 ) 











2.3.1.1 相似 度 函 数 的 变形 
在 实践 中 也 会 用 到 一 些 不 同形 式 的 相似 度 函 数 。 一 种 变形 是 将 余弦 函数 应 用 在 原始 评 
分 上 ， 而 不 是 应 用 在 均值 中 心 化 的 评分 上 : 


Der ni Tuk * Tub 


A/ rip rae A/ isea rok 
在 余弦 函数 的 一 些 实现 中 ， 分母 上 的 归 一 化 因子 被 设 为 基于 该 用 户 所 有 已 评分 的 物品 而 不 
是 两 个 用 户 共 同 已 评分 的 物品 。 


RawCosine(u,v) = (2-5) 


EDETI Yuk * Tok 


TEDAS ri DARTI rok 

总 的 来 说 ， 相 比 于 余弦 函数 中 均值 中 心 化 的 偏差 调整 (bias adjustment) 效果 ，Pear- 
son 相关 系数 往往 更 加 可 取 。 这 种 调整 考虑 了 不 同 的 用 户 在 总 的 评价 模式 上 宽容 程度 不 尽 
相同 这 一 事实 。 

相似 度 函 数 Sim(u, v) 的 可 靠 程度 通常 受用 户 u 和 用 户 v 之 间 共 有 评分 数量 
| 王 站 五 | 的 影响 。 当 两 位 用 户 的 共有 评分 很 少时 ， 为 了 削弱 这 对 用 户 的 重要 程度 ， 应 该 引 
人 一 个 削减 因子 以 降低 相似 度 。 这 种 方法 被 称 为 显著 性 加 权 (significance weighting), 4 
两 位 用 户 的 共有 评价 数 小 于 特定 的 国 值 8 时 ， 削 减 因子 将 被 引入 。 削 减 因子 的 值 定义 为 


min LLLOLLA, ety Co, 1J 上 。 因此， 削减 过 的 相似 度 DiscountedSim Cu, v) 


RawCosine(u.v) = (2-6) 





定义 如 下 : 
Pico ot ena es ee | ae I, | +B) (2-7) 


削减 过 的 相似 度 被 用 于 确定 目标 用 户 的 同 组 群体 和 公式 〈2- 4) 中 来 计算 预测 结果 。 
2.3.1.2 预测 函数 的 变形 
有 许多 预测 函数 的 变形 被 用 于 公式 (2- 4)。 例 如 ， 有 人 也 许 会 用 sy RAAP u BA 
评分 的 标准 差 ov 而 产生 的 Z- 分 数 zw 来 代替 将 原始 评分 均值 中 心 化 的 sw 。 标 准 差 定义 
如 下 : 


| 37 | 


[ 38 | 
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[2 (rw — pu)” 
Or = 


mes Vu € {im} (2-8) 
标准 化 的 评分 计算 如 下 : 
zy = Be i (2-9) 
Ou Ou 


S PG) 表示 与 目标 用 户 u 最 相近 的 且 对 物品 /做 出 过 评价 的 & 位 用 户 集 合 ， 于 是 目标 用 
P 对 物品 7 的 预测 评分 7 表示 如 下 : 

Dive pg) Sim (uv) © By 
i | Sim(u,v) | 
注意 在 这 种 情况 下 ， 加 权 平 均值 需要 乘 上 co。 通常 来 说 ， 如 果 在 评分 归 一 化 的 过 程 中 使 用 
SRAM g(，)， 那 么 在 最 终 的 预测 过 程 中 就 要 使 用 其 反 函 数 。 昌 然 人 们 通常 认为 归 一 化 
能 够 改善 预测 结果 ,但 是 许多 研究 对 均值 中 心 化 或 Z- 分 数 能 和 否 提供 更 高 质量 的 结果 得 出 
了 相反 的 结论 [245'248] 。Z- 分 数 的 一 个 问题 在 于 预测 结果 可 能 会 频繁 地 超出 允许 的 评分 范 
围 。 当 然 ， 即 使 预测 结果 超出 范围 ， 它 仍然 能 用 来 将 物品 按照 特定 用 户 的 需求 程度 排名 。 

预测 中 的 第 二 个 问题 是 ， 公式 (2-4) 中 的 各 种 评分 的 加 权 。 用 户 ， 与 目标 用 户 x 的 
相似 度 Simu, v) 被 作为 权重 ， 加 权 给 每 一 个 用 户 o 对 物品 7 的 均值 中 心 化 评分 sw 。 我 
们 选择 Pearson 相关 系数 作为 Sim(u, v) 时 ,一 个 通用 的 技巧 是 使 用 它 的 a 次 宕 去 放大 
E, AMEH, RNA: 


rs = fu On (2-10) 


Sim(u,v) = Pearson(u,v)* (2-11) 

选择 a 二 1， 就 能 放大 相似 度 在 公式 (2-4) 中 的 重要 性 。 

正如 之 前 所 讨论 的 那样 ， 基 于 近邻 的 协同 过 滤 方 法 是 最 近邻 分 类 /回归 方法 的 泛 化 。 
之 前 的 讨论 更 接近 最 近邻 回归 建 模 问题 ， 而 不 是 最 近邻 分 类 问题 ， 这 是 由 于 在 预测 过 程 中 
预测 值 被 当 作 连续 变量 。 我 们 也 可 以 通过 将 评分 看 作 分 类 变量 并 忽略 评分 之 间 的 顺序 来 创 
建 一 种 更 接近 分 类 方法 的 预测 函数 。 一 旦 确定 了 目标 用 户 x 的 同 组 群体 ， 组 中 对 每 个 可 能 
的 评分 (比如 ,赞同 、 保 留意 见 、 反 对 ) 的 投票 数 便 确 定 了 。 票 数 最 多 的 评分 项 被 预测 为 
相关 评分 。 这 种 方法 的 优势 在 于 能 够 输出 最 有 可 能 的 评分 而 非 评分 的 平均 分 。 这 种 方法 在 
不 同 评分 项 数 很 少时 通常 会 更 加 有 效 。 在 相 邻 评 分 项 之 间 的 评分 间隔 没有 被 定义 的 评分 
中 ， 这 种 方法 也 是 有 用 的 。 然 而 ， 在 评分 项 粒度 很 高 时 ， 这 种 方法 的 健壮 性 较 差 ， 并 且 丢 
失 了 许多 评分 中 的 顺序 信息 。 

2.3.1.3 筛选 同 组 群体 的 各 类 变形 

为 目标 用 户 定义 并 筛选 同 组 群体 的 方法 多 种 多 样 。 最 简单 的 方法 是 选择 前 位 与 目标 
用 户 最 相似 的 用 户 做 他 的 同 组 群体 。 然 而 ， 这 种 方法 也 许 会 选中 与 目标 用 户 相 关 性 弱 或 者 
负 相 关 的 用 户 。 弱 相关 的 用 户 可 能 会 增加 预测 的 错误 。 更 进一步 ， 利 用 负 相 关 的 评价 去 预 
测 潜在 的 评价 反 转 通常 没有 很 大 的 价值 。 虽 然 就 技术 而 言 允 许 预测 函数 使 用 弱 相 关 或 负 相 
关 的 评价 ， 但 对 它们 的 使 用 与 近邻 算法 中 更 广泛 的 原则 相 违 背 ， 因 此 ， 弱 相关 或 负 相 关 的 
评分 通常 会 被 剔除 。 

2.3.1.4 长 尾 的 影响 

如 2. 2 节 所 说 ， 在 许多 真实 的 场景 中 ,评分 的 分 布 通常 呈 长 尾 分 布 。 某 些 电影 可 能 非 
常 受 欢迎 以 至 于 它们 经 常 作为 被 不 同 用 户 共同 评价 的 项 出 现 。 这 样 的 评价 有 时 会 降低 推荐 
的 质量 ， 因 为 它们 对 不 同 的 用 户 缺 乏 区 分 力 。 这 种 推荐 的 负面 影响 在 同 组 群体 计算 和 预测 
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计算 (HAR (2-4) 中 都 有 体现 。 这 与 在 文档 检索 应 用 中 很 常见 并 且 无 具体 信息 的 单词 
(例如 ,“a”“an”“the”) 会 使 检索 结果 变 坏 的 道理 一 样 。 因 此 ， 协 同 过 滤 中 推荐 的 解决 
方法 也 与 信息 检索 中 的 方法 类 似 。 正 如 信息 检索 中 北 文 档 频率 (idf) 这 一 概念 oo 一 样 ， 
我 们 可 以 使 用 逆 用 户 频率 这 一 概念 。 设 mj 为 物品 7 的 评价 数 ，m 为 用 户 总 数 ， 那 么 物品 j 
的 权重 wj; 定义 如 下 : 


wj = log (如) Vi E€ {len} | (2-12) 


在 相似 度 计算 和 推荐 过 程 中 ， 每 件 物品 j 都 被 赋予 权重 w;。 例 如 ， 对 Pearson 系数 做 如 下 
修改 以 包含 这 些 权重 : 


NI wre? (Fuk = pe) * (re = pia) 


A/ eas wee (rue — pu)? * A > wes (ra — pu)? 
物品 加 权 也 可 以 用 在 其 他 协同 过 滤 方 法 中 。 例 如 ， 在 基于 物品 的 协同 过 滤 算 法 中 ， 即 使 两 
件 物 品 加 权 后 的 余弦 相似 度 保持 不 变 ， 也 可 以 在 最 终 预 测 时 进行 加 权 。 


2.3.2 基于 物品 的 近邻 模型 


在 基于 物品 的 模型 中 ， 以 物品 而 不 是 用 户 构建 同 组 群体 。 因 此 ， 需 要 计算 物品 〈 即 评 
YEE AS TY) 之 间 的 相似 度 。 在 计算 列 之 间 的 相似 度 之 前 ， 每 行 的 评分 被 以 均值 为 零点 中 
心 化 。 和 基于 用 户 的 模型 一 样 ， 每 一 件 物品 的 评分 都 被 减 去 该 物品 的 平均 评分 以 得 到 一 个 
均值 中 心 化 的 和 矩阵。 这 一 过 程 与 之 前 计算 均值 中 心 化 评分 sw 一样 ( 见 公式 (2-30). SU; 
表示 已 对 物品 i 做 出 评价 的 用 户 集合 。 因 此 ， 如 果 第 一 、 第 三 、 第 四 位 用 户 对 物品 i 的 评 
NEM, MARAU: ={1,3,4}. 

于 是 ， 物 品 ; 与 物品 7 的 调整 余弦 相似 度 定义 如 下 : 


Zueania Sui * Sw 


A/ DJveu,nu, sae A/ Ded ng si 

这 种 相似 度 之 所 以 被 称 为 调整 过 的 ， 是 因为 在 计算 相似 度数 值 之 前 ， 评 分 被 均值 中 心 化 
了 。 虽 然 在 基于 物品 的 方法 中 仍然 可 以 使 用 Pearson 相关 系数 ， 但 调整 余弦 通常 会 产生 更 
好 的 结果 。 

假设 我 们 需要 确定 用 户 u 对 物品 t 的 评分 。 第 一 步 是 通过 之 前 提 到 的 调整 余弦 相似 度 
确定 与 物品 上 最 相似 的 & 件 物 品 。 用 Q, (wu) 表示 用 户 已 评价 且 与 + 最 相似 的 & 件 物 品 。 
这 些 (原始 ) 评分 的 加 权 平 均值 即 是 预测 结果 。 物 品 j 与 目标 物品 i 的 调整 余弦 相似 度 即 
为 其 权重 。 因 此 ， 用 户 对 目标 物品 t 的 预测 评分 表示 如 下 : 

ri Dh AdjustedCosine(j ,t) ruj ee 
a | AdjustedCosine(j ,t) | 

基本 思想 是 在 最 终 预测 阶段 中 利用 用 户 自己 对 相似 物品 的 评价 。 例 如 ， 在 一 个 电影 推荐 系 
统 中 ， 物 品 的 同 组 群体 通常 是 同类 型 的 电影 。 一 位 用 户 对 这 些 电 影 的 历史 评价 在 预测 这 位 
用 户 的 兴趣 时 是 十 分 可 靠 的 因素 。 

前 一 节 讨 论 了 许多 基于 用 户 的 协同 过 滤 的 基本 方法 的 变形 。 由 于 基于 物品 的 算法 与 基 
于 用 户 的 算法 十 分 相似 ， 所 以 在 基于 物品 的 方法 中 ， 也 可 以 在 相似 度 函 数 和 预测 函数 中 设 
计 类 似 的 变形 。 


Pearson(u,v) = 


(2-13) 


AdjustedCosine(z.j) = 





(2-14) 





[ 39 | 


[ 40 | 


[ 41 | 


30 第 2 章 


基于 物品 的 算法 实例 

我 们 仍然 利用 表 2- 1 的 例子 来 说 明基 于 物品 的 算法 。 我 们 将 使 用 基于 物品 的 算法 来 预 
WAP 3 的 未 知 评分 。 因 为 用 户 3 对 物品 1 和 物品 6 的 评分 是 未 知 的 ， 因 此 我 们 需要 计算 
物品 1 和 物品 6 SHAT Cah) 的 相似 度 。 

首先 ， 需 要 计算 均值 中 心 化 以 后 的 物品 相似 度 。 表 2- 2 展示 了 均值 中 心 化 之 后 的 和 矩 
阵 。 表 的 最 后 两 行 展示 了 物品 1 和 物品 6 与 其 他 物品 对 应 的 调整 余弦 相似 度 ， 物 品 1 和 3 
之 间 的 调整 余弦 相似 度 AdjustedCosine(1,3) 计算 如 下 : 


AdiustedCostent 1.3) = LS Les TAEL GNERE DE 
ys 
=0. 912 


其 他 的 物品 一 物品 相似 度 以 类 似 的 方法 计算 ， 其 结果 在 表 2-2 的 最 后 两 行 。 显然 ,物品 2 

和 物品 3 与 物品 1 最 为 相似 ， 物 品 4 和 物品 5 与 物品 6 最 相似 。 因 此 用 户 3 对 物品 2 和 物 

品 3 的 原始 评分 的 加 权 平 均值 被 用 来 预测 她 对 物品 1 的 评分 731; 辐 理 ， 她 对 物品 4 和 物 

品 5 的 原始 评分 的 加 权 平 均值 被 用 来 预测 她 对 物品 6 的 评分 736。 

3x0.735 十 3x*0.912 _ 
0.735 十 0. 912 


_1x0.829 十 1x0.730 _ 
0. 829 十 0.730 


可 见 ， 基 于 物品 的 方法 也 表明 ， 用 户 3 可 能 更 倾向 于 选择 物品 1 而 不 是 物品 6。 然 而 由 于 
此 次 预测 利用 用 户 3 自己 的 评分 ， 所 以 预测 的 结果 与 该 用 户 对 其 他 物品 的 评分 有 较 高 的 一 
致 性 。 在 这 个 实例 中 ， 值 得 注意 的 一 点 是 ， 与 基于 用 户 的 方法 不 同 ， 对 物品 6 的 预测 评分 
并 没有 超出 允许 的 评分 范围 。 基 于 物品 的 方法 的 主要 优势 在 于 它 具 有 更 高 的 预测 准确 度 。 
在 某 些 情况 下 ， 基 于 物品 的 方法 和 基于 用 户 的 方法 ， 虽 然 它们 的 推荐 列表 大 致 会 相同 ， 但 
可 能 会 产生 不 同 的 前 & 个 推荐 物品 。 


2.3.3 高 效 的 实现 和 计算 复杂 度 


基于 近邻 的 方法 通常 用 来 决定 推荐 给 目标 用 户 的 最 好 物品 或 是 目标 物品 的 最 合适 用 
户 。 之 前 仅 讨论 了 如 何 就 一 组 特定 的 用 户 - 物 品 组 合 做 出 评分 预测 ， 而 没有 讨论 确切 的 排 
名 过 程 。 一 种 直接 的 方法 就 是 为 所 有 相关 的 用 户 一 物品 对 (比如 ， 某 位 用 户 对 所 有 物品 ) 
计算 评分 预测 并 将 它们 排名 。 这 的 确 是 现代 推荐 系统 中 使 用 的 基本 方法 ， 但 其 中 很 重要 的 
一 点 是 ， 在 用 户 = 物 品 组 合 的 预测 过 程 中 重复 用 到 了 很 多 中 间 量 。 因 此 ， 建 议 在 离线 阶段 
存储 这 些 中 间 计 算 结 果 ， 并 在 排名 过 程 中 使 用 它们 。 

基于 近邻 的 方法 常常 被 分 成 离线 阶段 和 在 线 阶段 。 在 离线 阶段 计算 用 户 -= 用 户 (或 者 
物品 =- 物品) 相似 度 和 用 户 同 组 群体 〈 或 物品 同 组 群体 )。 对 每 位 用 户 〈 或 每 件 物品 ) ， 把 
计算 出 的 同 组 群体 存储 起 来 。 在 线 阶段 时 ， 把 计算 得 到 的 相似 度 值 和 同 组 群体 ， 使 用 公 
R (2-4) 进行 预测 。 令 nK 表示 用 户 GD 的 已 知 评分 的 最 大 数量 ，m mm 表示 物品 
( 列 ) 的 已 知 评分 的 最 大 数量 。 注 意 ,，n 是 计算 用 户 相 似 度 的 最 大 运行 时 间 ， 而 mr 是 计算 
物品 相似 度 的 最 大 运行 时 间 。 在 基于 用 户 的 方法 中 ， 确 定 一 位 用 户 的 同 组 群体 可 能 需要 
Olm» n) 的 时 间 。 因 此 ， 离 线 阶 段 计 算 所 有 用 户 的 同 组 群体 的 运行 时 间 为 On? ，n')。 
对 基于 物品 的 方法 来 说 ， 对 应 的 离线 运行 时 间 为 OG? em). 

为 了 使 该 方法 计算 不 同 k 值 下 的 结果 ， 可 能 需要 存储 所 有 的 用 户 (或 物品 ) 之 间 非 零 
的 相似 度 值 。 因 此 ， 基 于 用 户 的 方法 需要 Om) 的 空间 ， 基 于 物品 的 方法 则 需要 Oln?) 
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的 空间 。 由 于 用 户 的 数量 通常 多 于 物品 的 数量 ， 因 此 基于 用 户 的 方法 通常 比 基 于 物品 的 方 
法 更 占用 空间 。 

无 论 基 于 用 户 还 是 基于 物品 ， 在 线 阶 段 根据 公式 (2- 4) 计算 预测 结果 都 需要 OCR) 
的 时 间 ， 这 里 , & 是 被 预测 的 用 户 /物品 近邻 的 大 小 。 更 进一步 ， 如 果 需 要 预测 目标 用 户 
对 所 有 物品 的 评分 以 对 物品 进行 排序 ， 那 么 两 种 方法 的 运行 时 间 均 为 O(k，n)。 另 一 方 
面 ， 我 们 也 许 想 确定 目标 物品 的 最 佳 > 个 推荐 对 象 。 这 种 情况 下 ， 需 要 计算 所 有 用 户 对 这 
一 物品 的 评分 ， 花 费 Oem) 的 时 间 。 值 得 注意 的 是 ， 基 于 近邻 方法 的 计算 复杂 度 主要 
取决 于 离线 阶段 ， 而 离线 阶段 只 是 偶尔 需要 被 执行 。 因 此 ， 当 基于 近邻 的 方法 被 用 于 在 线 
预测 时 是 十 分 高 效 的 。 毕 竟 用 户 更 愿意 为 离线 阶段 分 配 更 多 的 时 间 。 


2.3.4 基于 用 户 的 方法 和 基于 物品 的 方法 的 比较 


基于 物品 的 方法 常常 产生 更 相关 的 推荐 结果 ， 这 是 因为 它 使 用 了 用 户 自己 的 评分 来 做 
推荐 。 该 方法 通过 识别 与 目标 相似 的 物品 ， 再 利用 用 户 对 这 些 相 似 物 品 的 评分 ， 从 而 推断 
目标 物品 的 评分 。 例 如 ， 历 史 电 影 的 相似 物品 应 该 是 其 他 历史 电影 。 这 种 情况 下 ， 用 户 对 
相似 物品 的 推荐 应 该 能 够 高 度 反 映 她 对 目标 的 偏好 。 这 和 基于 用 户 的 方法 不 同 。 在 基于 用 
户 的 方法 中 ， 用 来 推测 评分 的 其 他 用 户 的 兴趣 和 目标 用 户 的 兴趣 可 能 有 相同 点 ， 但 并 不 完 
全 相同 。 因 此 ， 基 于 物品 的 方法 通常 展现 出 更 高 的 准确 性 。 

虽然 基于 物品 的 方法 通常 更 加 准确 ， 但 基于 物品 的 方法 和 基于 用 户 的 方法 之 间 的 相对 
准确 性 仍 取决 于 具体 的 数据 。 在 第 12 章 中 你 还 会 了 解 到 ， 基 于 物品 的 方法 面 对 欺 诈 攻 击 
(shilling attack〉 时 更 加 健壮 。 另 一 方面 ， 这 些 差别 也 导致 了 基于 用 户 的 方法 在 推荐 过 程 
中 比 基 于 物品 的 方法 更 具有 和 多样 性 。 多 样 性 指 的 是 ， 推 荐 列表 中 的 物品 多 少 会 有 些 变 化 。 
假如 物品 推荐 不 够 多 样 ， 那 么 如 果 用 户 不 喜欢 第 一 件 物品 ， 她 也 许 不 会 喜欢 列表 中 的 其 他 
任何 物品 。 更 大 的 多 样 性 还 鼓励 意外 发 现 ， 即 向 用 户 推荐 一 些 令 人 意外 并 有 趣 的 物品 。 而 
基于 物品 的 方法 常常 推荐 “显而易见 ”的 物品 ， 或 者 说 ， 与 之 前 的 体验 区 别 甚 微 的 物品 。 
对 新 颖 性 、 多 样 性 、 意 外 性 的 关注 将 在 第 7 章 详细 讨论 。 如 果 推 荐 缺乏 新 颖 性 、 多 样 性 、 
意外 性 ， 那 么 用 户 对 于 那些 与 他 们 已 经 浏览 过 的 物品 很 相似 的 推荐 可 能 会 感到 厌烦 。 

基于 物品 的 方法 能 为 推荐 结果 提供 一 个 具体 的 理由 。 例 如 ，Netflix 常常 对 推荐 附加 
如 下 陈述 : 

因为 你 观看 过 《Secrets of the Wings》，[ 推 荐 结果 是 ] (推荐 列表 》. 

基于 物品 的 推荐 方法 2 可 以 利用 目标 物品 的 近邻 对 推荐 的 理由 给 出 具体 的 解释 。 与 其 
相 比 ， 基 于 用 户 的 推荐 方法 则 很 难 给 出 这 样 的 解释 ， 因 为 同 组 群体 只 是 匿名 用 户 的 集合 ， 
并 且 无 法 在 推荐 过 程 中 直接 使 用 。 

然而 基于 用 户 的 方法 也 可 以 提供 不 同类 型 的 解释 。 例 如 ， 考 虑 《Terminator》《Alien》 
(Predator) 被 推荐 给 Alice 的 情况 。 可 以 向 她 展示 与 她 相似 的 用 户 对 这 些 电 影 的 评分 的 直 
方 图 。 图 2-2 展示 了 这 类 直方 图 的 一 个 实例 。Alice 也 能 利用 这 个 直方 图 来 确定 她 对 这 些 
电影 的 喜好 程度 。 但 是 ， 这 种 解释 方法 有 些 局 限 性 ， 因 为 它 没有 体现 出 所 推荐 的 电影 与 
Alice 的 喜好 或 Alice 现实 中 认识 并 信任 的 朋友 的 喜好 之 间 的 关联 。 注 意 ， 出 于 隐私 ， 与 好 
相似 的 用 户 的 身份 对 Alice 来 说 是 不 可 见 的 。 





OQ Netflix 所 采用 的 方法 因为 版 权 保护 所 以 无 法 得 知 。 然 而 ， 基 于 物品 的 方法 确实 能 提供 一 种 可 行 的 达到 类 似 目 
标的 方法 。 
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最 后 ， 当 评分 动态 变化 时 ， 基 于 物品 的 方法 通常 更 加 稳定 。 这 是 由 于 以 下 两 个 原因 。 
第 一 ， 用 户 的 数量 通常 远 比 物品 的 数量 要 多 。 这 样 一 来 ， 两 位 用 户 共同 评价 过 的 物品 可 能 
非常 少 ,但 更 有 可 能 的 是 两 件 物品 被 同一 位 用 户 评价 。 在 基于 用 户 的 方法 中 ， 评 分 的 少量 
增加 能 够 引起 相似 度 值 的 巨大 改变 ， 而 基于 物品 的 方法 则 不 然 ， 它 对 评分 的 变化 会 显得 更 
加 稳定 。 第 二 ， 在 商业 系统 中 ， 新 用 户 的 出 现 比 新 物品 的 出 现 更 加 频繁 。 这 种 情况 下 ， 相 
似 物品 的 计算 只 需 视 情况 进行 ， 因 为 物品 近邻 不 大 可 能 随 着 用 户 的 增加 而 剧烈 变化 。 男 一 
方面 ， 随 着 用 户 的 增加 ， 需 要 频繁 地 计算 用 户 近 邻 。 因 此 ， 推 荐 模型 的 增 量 维护 在 使 用 基 
于 用 户 的 方法 时 会 更 有 挑战 性 。 


近邻 评分 的 数量 











0.5 1 13 
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图 2-2 用 Alice 的 近邻 的 评分 直方 图 来 解释 Alice 的 置顶 推荐 


2.3.5 基于 近邻 方法 的 优 劣 势 


基于 近邻 的 方法 的 简单 和 直观 为 其 带 来 了 优势 。 由 于 简单 直观 ,它们 容易 实现 与 调 
试 。 通 常 很 容易 说 明 一 件 物品 为 什么 会 被 推荐 ， 基 于 物品 的 方法 的 可 解释 性 尤其 明显 。 在 
之 后 将 要 讨论 的 许多 基于 模型 的 方法 中 ， 做 出 这 种 解释 并 非 易 事 。 除 此 以 外 ， 在 用 户 与 物 
品 增加 时 ， 其 推荐 结果 相对 稳定 。 同 时 ， 这 些 方法 可 以 对 增 量 做 出 预 估 。 

这 类 方法 的 主要 缺点 在 于 ， 其 离线 阶段 在 大 规模 数据 上 变 得 无 法 实现 。 基 于 用 户 的 方 
法 ， 其 离线 阶段 要 求 至 少 Omn?) 的 时 间 和 空间 。 在 桌面 计算 系统 下 ， 当 m 达到 千 万 量 级 
时 ， 其 计算 会 变 得 很 慢 或 空间 不 足 。 不 过 近邻 方法 的 在 线 阶段 总 是 很 高 效 。 这 些 方法 最 致 
命 的 缺点 是 由 于 稀 玻 性 导致 的 覆盖 度 不 足 。 例 如 ， 如 果 John 的 最 近邻 没有 评价 过 《Ter- 
minator》， 那 么 John 对 《Terminator》 的 评价 就 无 法 预测 。 另 一 方面 ， 我 们 在 大 多 数 的 推 
荐 中 只 关心 前 & 件 物品 。 如 果 John 的 最 近邻 都 没有 评价 过 《Terminator》， 那 这 部 电影 显 
然 不 是 一 个 好 的 推荐 。 当 两 位 用 户 共同 评价 过 的 物品 很 少时 ， 稀 玖 性 同样 也 对 相似 度 计算 
的 健壮 性 带 来 挑战 。 
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2.3.6 基于 用 户 的 方法 和 基于 物品 的 方法 的 联合 


当 决 定 最 相似 的 项 时 ， 基 于 用 户 的 方法 的 弱点 在 于 它 忽 视 了 评分 矩阵 列 之 间 的 相似 
度 ， 而 基于 物品 的 方法 则 忽视 了 行 之 间 的 相似 度 。 那 么 一 个 自然 的 问题 出 现 了 : 我 们 能 否 
联合 这 两 种 方法 来 决定 与 目标 最 相似 的 项 ? 这 样 做 ， 我们 便 不 再 忽视 行 或 者 列 ， 而 是 将 行 
和 列 中 的 相似 度 信息 组 合 起 来 。 

为 了 达到 这 一 目标 ， 关 键 是 要 理解 ， 一 且 行 已 被 均值 中 心 化 ， 基 于 用 户 的 方法 和 基于 
物品 的 方法 几乎 是 一 样 的 (除了 一 些 细微 的 差别 )。 我 们 可 以 设想 均值 中 心 化 并 不 会 导致 
失去 一 般 性 ， 因 为 在 预测 后 ， 每 行 的 平均 值 可 以 被 加 回 每 一 项 上 。 同 时 值得 注意 的 是 ， 如 
果 每 一 行 都 已 均值 中 心 化 ,那么 行 之 间 的 Pearson 相关 系数 和 余弦 系数 便 相等 9S 。 基 于 这 
种 设想 ， 能 够 联合 基于 用 户 的 方法 和 基于 物品 的 方法 来 预测 评分 矩阵 R 中 的 项 rr : 

D 对 目标 项 〈x，7) 使 用 行 / 列 之 间 的 余弦 系数 决定 与 其 最 相似 的 行 / 列 。 基 于 用 户 
的 方法 使 用 行 ， 基 于 物品 的 方法 使 用 列 。 

2) 使 用 第 一 步 中 计算 出 的 最 相似 的 行 / 列 的 加 权 组 合 来 预测 目标 项 〈x，7) 。 

注意 在 上 面 每 一 步 的 叙述 中 都 忽略 了 行 / 列 ， 你 当然 也 能 对 上 面 的 步骤 提出 一 种 一 般 
性 的 描述 ， 使 得 行 和 列 的 相似 度 和 预测 信息 被 结合 起 来 : 

D 对 目标 项 (u，7)， 用 一 个 行 相似 度 和 列 相似 度 的 组 合 函 数 ， 来 判定 评分 和 矩阵 中 与 
其 最 相似 的 项 。 例 如 ， 你 可 以 使 用 行 之 间 和 列 之 间 的 余弦 系数 的 和 来 决定 与 (x，7) 最 相 
似 的 项 。 

2) 使 用 第 一 步 中 计算 出 的 最 相似 的 项 的 加 权 组 合 来 预测 目标 项 (x，7) 的 评分 。 其 
权重 是 基于 第 一 步 中 计算 出 的 相似 度 。 

这 里 我 们 着 重 强调 了 与 通常 方法 不 同 的 步 又。 这 种 方法 利用 组 合 函 数 融 合 了 行 和 列 的 
相似 度 。 你 可 以 测试 多 种 组 合 函 数 来 找到 最 有 效 的 结果 。 这 种 联合 的 方法 的 详细 描述 见 文 
献 [613，622]。 这 一 基本 原则 也 被 用 于 上 下 文敏 感 推荐 系统 的 多 维 模型 中 ， 其 中 用 户 、 

品 以 及 其 他 上 下 文 维度 的 相似 度 被 整合 进 一 个 框架 中 (参见 第 8 章 8. 5.1 节 )。 


2.4 聚 类 和 基于 近邻 的 方法 


基于 近邻 的 方法 的 主要 问题 在 于 离线 阶段 的 复杂 度 ， 当 用 户 或 物品 的 数目 十 分 庞大 时 
其 影响 尤为 明显 。 例 如 ， 当 用 户 的 数量 m 达到 几 亿 的 量 级 ， 基 于 用 户 的 方法 的 运行 时 间 
Om? en) 即使 对 于 偶尔 的 离线 计算 也 将 变 得 不 可 接受 。 考 虚 当 m 二 108，n =100 的 情 
Ui. 需要 Olm? -n )=00108) 次 操作 。 如 果 我 们 保守 地 假设 每 次 操作 需要 一 个 机 器 周 
期 , 一 台 10 GHz 的 计算 机 需要 108 秒 来 进行 计算 ， 这 大 概 是 115.74 天 。 显 然 ， 从 可 扩展 
的 角度 来 看 ， 这 种 方法 并 不 是 很 实用 。 

基于 聚 类 的 方法 的 主要 思想 是 用 离线 聚 类 过 程 替 代 离 线 最 近邻 计算 。 离 线 最 近邻 计算 
过 程 创 建 了 大 量 以 目标 为 中 心 的 同 组 群体 ， 聚 类 过 程 创建 了 较 少 的 同 组 群体 ， 并 且 这 些 同 
组 群体 并 不 一 定 以 目标 为 中 心 。 聚 类 过 程 比 起 耗 时 On? +n’) 为 每 个 可 能 的 目标 构建 同 
组 群体 的 过 程 要 高 效 许多 。 聚 类 建立 之 后 ， 预 测 过 程 与 公式 (2- 4) 中 的 方法 相似 。 它 们 
之 间 的 主要 区 别 在 于 同一 聚 类 中 前 个 最 相似 的 项 被 用 于 执行 预测 。 值 得 注意 的 是 ， 由 于 


日 ”根据 Pearson 相关 系数 中 平均 值 的 计算 方式 会 有 一 些 细微 的 差别 ， 如 果 平 均值 是 使 用 所 有 已 知 项 计算 得 来 〈 而 
不 是 仅 计算 共同 项 ) ， 那 么 对 于 这 个 按 行 均值 中 心 化 的 矩阵 Pearson 相关 系数 等 于 余弦 系数 。 


[ 44 | 


[ 45 | 
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只 需 在 同一 聚 类 中 计算 相似 度 ， 所 以 这 种 方法 能 够 显著 提升 效率 。 这 种 高 效 也 确实 导致 一 
些 准 确 性 的 损失 ， 因 为 在 同一 聚 类 中 的 最 近邻 比 所 有 数据 中 的 最 近邻 质量 要 低 。 更 进 一 
步 ， 聚 类 的 粒度 可 以 调整 准确 度 与 效率 之 间 的 权衡 。 当 聚 类 粒度 小 时 ， 效 率 提高 ,但 准确 
度 降 低 。 在 许多 情况 下 ， 准 确 度 上 较 小 的 降低 能 换取 效率 上 很 大 的 提升 。 当 评分 矩阵 很 大 
时 ， 这 种 方法 以 较 低 的 代价 提供 了 一 种 十 分 可 行 的 替代 方案 。 

这 种 方法 面临 的 一 个 问题 是 ,评分 矩阵 是 不 完全 的 。 因 此 ， 聚 类 的 方法 需要 能 适应 庞 
大 的 、 不 完全 的 数据 集合 。 在 这 种 环境 下 , k 均值 方法 能 够 轻松 适应 不 完全 的 数据 。& 均 
值 方法 的 基本 思想 是 考虑 & 个 中 心 点 (或 “均值 ”)， 这 些 中 心 点 代表 上 个 不 同 的 聚 类 。 在 
均值 方法 中 ， 确 定 这 上 个 中 心 点 就 能 完全 解决 聚 类 问题 。 设 已 知 上 个 中 心 点 YY…Yh， 每 
个 数据 点 根据 相似 度 或 距离 附属 于 与 其 最 近 的 中 心 点 。 这 样 一 来 ,数据 的 划分 就 能 通过 中 
心 点 唯一 确定 。 对 于 一 个 mXn 的 数据 集合 来 说 ， 每 一 个 聚 类 i 的 中 心 点 Yi 是 一 个 维 数 
据点 。 理 想 情 况 下 ， 我 们 希望 这 个 中 心 点 是 聚 类 的 均值 。 

因此 ， 育 类 依赖 于 中 心 点 ， 中 心 点 也 依赖 于 聚 类 。 这 种 相互 依赖 的 关系 通过 一 种 迭代 
的 方法 达成 。 我 们 从 一 组 随机 生成 的 中 心 点 页 … 欢 出 发 。 不 断 利用 中 心 点 计算 聚 类 ， 再 用 
聚 类 的 中 心 点 代替 原来 的 中 心 点 。 需 要 注意 的 是 ， 在 计算 中 心 点 时 ， 在 任何 维度 都 必须 仅 
使 用 观测 到 的 值 〈 已 知 的 值 ) 。 执 行 这 两 步 迭 代 直 到 收敛 。 这 个 两 步 法 总 结 如 下 : 

D 通过 将 mXn 矩阵 中 的 每 一 行 分 配 到 距 其 最 近 的 中 心 点 YY… 了 来 确定 聚 类 C1…C,。 
可 以 采用 有 代表 性 的 距离 函数 ， 例 如 欧 几 里 得 距离 或 者 曼哈顿 距离 ， 计算 相似 度 。 

2) 对 于 iE {1…k)， 置 Yj; 为 C; 的 中 心 点 。 

使 用 这 种 方法 的 主要 问题 在 于 ，m Xn 的 评分 矩阵 是 不 全 的 。 因 此 ， 平 均值 或 距离 的 
计算 是 没有 定义 的 。 但 是 ， 如 果 用 已 观测 到 的 值 来 计算 平均 值 相对 容易 。 在 某 些 情况 下 ， 
中 心 点 本 身 也 是 没有 定义 的 ， 例如 当 该 类 中 有 一 个 或 多 个 物品 没有 评分 时 。 点 之 间 的 距离 
只 能 使 用 维度 的 子 集 来 计算 ; 该 子 集 值 无 论 对 数据 点 还 是 聚 类 中 心 点 都 应 是 已 观测 的 。 距 
离 同 时 要 除 以 计算 中 用 到 的 维度 数量 ， 以 调整 因 维度 数目 不 同 所 导致 计算 距离 的 偏差 。 当 
所 有 中 心 点 都 不 是 完全 明确 时 ， 曼 喻 顿 距离 比 欧 几 里 得 距离 表现 出 更 好 的 适应 性 ， 并 且 归 
一 化 的 值 能 够 更 容易 地 转换 成 每 个 观测 数据 上 的 平均 距离 。 

上 面 提 到 的 方法 对 基于 用 户 的 协同 过 滤 的 行进 行 聚 类 。 在 基于 物品 的 方法 中 ， 就 要 对 
列 进 行 聚 类 。 除 了 目标 是 列 而 不 是 行 以 外 ， 其 方法 完全 一 样 。 一 些 高 效 的 协同 过 滤 聚 类 方 
法 在 [146, 167, 528, 643, 644, 647] 中 有 讨论 。 其 中 一 些 是 基于 用 户 的 方法 ， 另 一 些 
是 基于 物品 的 方法 。 一 些 协 同 聚 类 方法 [56431 可 以 用 来 同时 对 行 和 列 进行 聚 类 。 


2.5 降 维 与 近邻 方法 


降 维 方法 能 够 同时 提高 近邻 方法 的 质量 和 效率 。 尤 其 是 在 稀 朴 矩阵 中 很 难 健壮 地 计算 
每 对 之 间 的 相似 度 的 情况 下 ， 降 维 也 能 够 根据 潜在 因子 提供 稠密 的 低 维 表示 。 因 此 ， 这 样 
的 模型 被 称 为 潜在 因子 模型 。 即 使 两 位 用 户 共 同 评价 过 的 物品 很 少 ， 也 能 够 计算 其 低 维 潜 
在 向 量 之 间 的 距离 。 更 进一步 ， 这 种 方法 利用 低 维 潜在 向 量 决定 同 组 群体 也 更 有 效率 。 在 
讨论 降 维 方法 的 细节 之 前 ,我 们 先 说 说 推荐 系统 中 潜在 因子 模型 被 使 用 的 两 种 不 同方 法 : 

1) 创建 数据 的 降 维 表示 可 以 基于 行 的 潜在 因子 也 可 以 基于 列 的 潜在 因子 。 换 句 话 说 ， 
对 数据 的 降 维 表示 是 将 物品 的 维度 或 者 用 户 的 维度 压缩 成 潜在 因子 。 这 种 降 维 表示 能 够 组 
解 基于 近邻 模型 中 由 于 稀疏 性 带 来 的 问题 。 依 据 被 压缩 成 潜在 因子 的 不 同 维度 ， 降 维 表示 
既 能 用 于 基于 用 户 的 近邻 算法 ， 也 能 用 于 基于 物品 的 近邻 算法 。 
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2) 对 行 空间 和 列 空间 的 潜在 表示 是 同时 确定 的 。 在 不 使 用 基于 近邻 的 方法 时 ， 这 种 
潜在 表示 被 用 于 重建 整个 评分 矩阵 。 

因为 第 二 类 方法 与 基于 近邻 的 方法 没有 直接 联系 ， 所 以 本 章 不 讨论 它们 。 第 二 类 方法 
将 在 第 3 章 中 详细 讨论 。 本 章 我 们 将 只 关注 第 一 类 方法 。 

为 方便 讨论 ， 我 们 将 首先 描述 仅 基于 用 户 的 协同 过 滤 方 法 。 基 于 用 户 的 协同 过 滤 方 法 
的 基本 思想 是 利用 主 成 分 分 析 法 将 mXn 的 和 矩阵 R 转化 到 更 低 维 度 的 空间 中 。 得 到 的 矩阵 
R' 是 一 个 m Xd 的 矩阵 ， 且 d<z。 因 此 ， 代 表 用 户 评分 的 每 一 个 〈 稀 朴 的 ) nn 维 向 量 被 转 
化 为 低 维 的 4 维 向 量 。 而 且 ， 与 原始 评分 向 量 不 同 ， 每 一 个 4 维 向 量 都 是 完全 确定 的 。 当 
表示 每 位 用 户 的 d 维 向 量 都 确定 之 后 ,我 们 就 用 降 维 后 的 向 量 来 计算 目标 用 户 和 其 他 用 户 
的 相似 度 。 在 降 维 表 示 上 的 相似 度 计算 更 具有 健壮 性 ， 因 为 新 的 低 维 向 量 是 完全 确定 的 。 
而 且 由 于 低 维 向 量 维度 较 低 ， 相 似 度 的 计算 也 更 加 高 效 。 在 低 维 空间 中 ， 简 单 的 余弦 或 点 
积 就 足以 计算 相似 度 。 

接 下 来 要 说 明 如 何 计 算 每 个 数据 的 低 维 表示 。 可 以 通过 类 SVD 方法 或 类 PCA 方法 计 
算 低 维 表示 。 下 面 我 们 说 明 类 SVD 方法 。 

第 一 步 是 填充 mXn 不 完全 和 矩阵 R 中 的 未 知 项 。 以 对 应 行 的 平均 值 ( 即 对 应 用 户 的 平 
均 评分 ) 作为 未 知 项 的 估 值 。 另 一 种 方法 是 用 列 的 平均 值 〈 即 对 应 物品 的 平均 评分 ) 作为 
估 值 。 结 果 表 示 为 Rt。 接 下 来 ,我们 计算 nXn HW ih MWA S, S=RE + Rp. XA 
矩阵 是 半 正 定 的 。 为 了 确定 SVD 的 控制 基 向 量 ， 我 们 对 相似 度 和 矩阵 S 施行 如 下 的 对 角 化 : 

S = PAPT (2-16) 

这 里 ，P 是 一 个 nXn 的 矩阵 ， 其 列 包含 5S 的 正 交 特征 向 量 。4 是 一 个 对 角 抢 阵 ， 甚 对 角 
KEES 的 非 负 特 征 向 量 。 令 Pu 为 n Xd 的 和 矩阵， 仅 包 含 P 的 最 大 的 4 个 特征 向 量 对 应 的 
列 。 那 么 ， 和 矩阵 之 积 RjPa 就 是 Rj 的 低 维 表示 。 注 意 ， 由 于 Ry 是 m Xn HEE, PaE nX 
d 的 矩阵， 所 以 降 维 表示 RyP4 的 维度 为 m Xd4。 因 此 这 时 m 个 用 户 每 个 都 能 够 在 d 维 空间 
内 表示 。 这 样 的 表示 被 用 于 决定 每 位 用 户 的 同 组 群体 。 一 旦 确定 了 用 户 的 同 组 群体 ， 便 可 
以 利用 公式 2-4) 预测 评分 。 这 样 的 方法 也 能 被 用 于 基于 物品 的 协同 过 滤 ， 只 需 用 Rj 的 
转 置 矩 阵 蔡 代 尺 r。 

先前 提 到 的 方法 可 被 看 作 评 分 矩阵 Ry 的 奇异 值 分 解 (Singular Value Decomposition, 
SVD)。 很 多 其 他 方法 [244730 使 用 主 成 分 分 析 (Principal Component Analysis, PCA) 而 不 
是 SVD， 但 是 总 体 结 果 非 常 相 似 。 在 PCA 方法 中 ， 使 用 Rir 的 协 方差 阵 蔡 代 相 似 度 矩 阵 
RIR;。 对 于 列 均值 中 心 化 的 数据 来 说 ， 这 两 种 方法 是 一 样 的 。 因 此 ， 可 以 从 每 列 的 项 中 
减 去 平均 值 ， 然 后 使 用 之 前 的 方法 得 到 转化 的 数据 。 这 些 转化 后 的 数据 被 用 于 确定 每 位 用 
户 的 同 组 群体 。 反 过 来 说 ， 均 值 中 心 化 有 利于 减 小 偏差 〈 见 下 节 )。 一 种 替代 方法 是 先 将 
行 均值 中 心 化 ， 再 将 列 均值 中 心 化 。SVD 能 够 被 用 于 转化 以 后 的 矩阵 。 这 类 方法 通常 得 
出 最 健壮 的 结果 。 


2.5.1 处 理 偏差 


值得 注意 的 是 ， 和 矩阵 Rr 是 由 不 完全 矩阵 尽 以 行 或 列 的 均值 填 人 未 知 项 而 得 到 的 。 这 
种 方法 很 可 能 会 引起 偏差 。 为 了 理解 偏差 的 性 质 ， 考 虑 表 2- 3 中 由 12 位 用 户 对 3 部 电影 
《Godfather》《Gladiator》《Nero》 的 评价 。 我 们 假设 使 用 PCA 进行 降 维 ， 因 此 需要 估计 
协 方差 阵 。 我 们 假设 未 知 值 用 列 的 均值 代替 。 
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R 2-3 估计 协 方 差 的 方差 的 示例 
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1 1 
2 7 7 
3 3 1 
4 5 7 
5 3 ? 
6 5 ? 
7 3 2 
8 5 g 
9 3 ? 
10 5 ? 
ll 3 2 


本 例 中 ， 评 分 范围 为 1 一 7， 由 一 组 4 个 用 户 对 3 部 电影 的 评价 组 成 。 显 然 , 《Gladia- 
tor》 和 《Nero》 之 间 的 关联 度 非 常 高 ， 因 为 在 已 有 的 用 户 评分 中 ， 它 们 的 评分 结果 非常 
相似 。《Godfather》 和 《Gladiator》 之 间 的 关联 似乎 不 是 很 明显 。 但 是 ， 有 很 多 用 户 没 有 
对 《Nero》 做 出 评分 。 由 于 《Nero》 的 平均 得 分 为 (1 十 7 十 1 十 7)/4 二 4， 所 以 这 些 未 知 
的 评分 被 4 代 苦 。 这 些 新 项 的 加 入 明显 降低 了 《Gladiator》 和 《Nero》 之 间 的 协 方差 。 然 
而 新 添加 的 项 对 《Godfather》 和 《Gladiator》 之 间 的 协 方差 没有 影响 。 填 上 未 知 评分 后 ， 
3 部 电影 中 每 对 电影 的 协 方差 估计 如 下 : 


根据 上 面 的 估计 ，《Godfather》 和 《Gladiator》 之 间 的 协 方差 大 于 《Gladiator》 和 
《Nero》 之 间 的 协 方差 。 这 看 上 去 并 不 正确 ， 因 为 表 2-3 中 ,《Gladiator》 和 《Nero》 的 评 
分 在 两 者 都 已 知 的 评价 中 是 一 样 的 。 因 此 《Gladiator》 和 《Nero》 之 间 的 协 方差 应 该 更 
高 。 这 个 偏差 是 使 用 平均 值 填充 未 知 项 造成 的 。 这 类 偏差 在 稀 玖 矩阵 中 很 重要 ， 因 为 其 大 
部 分 项 都 是 未 知 的 。 因 此 ， 需 要 设计 一 种 方法 来 降低 用 平均 值 代替 未 知 项 所 带 来 的 偏差 。 
接 下 来 ， 我 们 探索 两 种 可 能 的 解决 方案 。 

2.5.1.1 极 大 似 然 估计 

概念 重 构 法 (conceptual reconstruction method)!2+-472! 提出 使 用 概率 技术 ， 比 如 EM 
算法 来 估计 协 方差 矩阵 。 我 们 假设 数据 符合 生成 模型 ， 即 把 已 知 项 看 成 是 生成 模型 的 输 
出 。 对 协 方差 矩阵 的 估计 可 以 看 作 是 生成 模型 参数 估计 的 一 部 分 。 接 下 来 ,我们 提供 一 种 
该 方法 的 简化 。 这 种 简化 的 方法 计算 协 方差 矩阵 的 最 大 似 然 估 计 。 每 对 物品 之 间 的 协 方差 
仅 使 用 已 知 项 进行 估计 。 换 名 话说 ， 只 有 对 某 对 物品 做 出 评分 的 用 户 被 用 来 估计 协 方差 。 
当 没 有 用 户 在 一 对 物品 上 做 出 共同 评价 时 ， 协 方差 被 估计 为 0。 使 用 这 种 方法 ， 表 2-3 的 
协 方差 估计 如 下 : 







Godfather 


Gladiator 


2. 18 








Nero 3. 27 


KF BHAA 37 












Godfather 
2 55 


Gladiator 










Godfather 
Gladiator 


4. 36 














4, 36 
8 


9. 82 
12 








Nero 


这 种 情况 下 ， 立 刻 可 以 看 出 《Gladiator》 和 《Nero》 之 间 的 协 方差 几乎 是 《Godfa- 
ther》 和 《Gladiator》 之 间 的 协 方差 的 3 倍 。 而 且 ，《Nero》 的 方差 几乎 是 原始 估计 的 3 
倍 ， 并 是 所 有 电影 中 最 大 的 。 在 使 用 平均 填充 策略 中 ， 协 方差 最 大 的 电影 对 是 《Godfa- 
ther》 和 《Gladiator》， 而 现在 敬 陪 末 座 。 这 个 例子 说 明 修 正 偏差 在 某 些 情况 中 可 以 有 非 
常 明 显 的 效果 。 和 矩阵 中 未 知 项 的 比例 越 大 ,平均 填充 技术 的 偏差 就 越 大 。 因 此 ， 改 良 的 方 
法 只 利用 已 知 项 计算 协 方差 。 虽然 这 种 方法 并 不 总 是 有 效 , 但 是 它 比 平均 填充 更 加 高 级 。 
降 维 后 的 nX d 的 基 和 矩阵 Pz 通过 选择 协 方差 矩阵 的 前 a 个 特征 向 量 计算 得 到 。 

为 了 进一步 减少 表示 的 偏差 .可 以 直接 将 不 完全 和 矩 阵 R 投 射 到 降 维 矩阵 Pa 上 ， 而 不 
是 将 填充 过 的 矩阵 Rj 投射 到 Pa。 其 基本 思想 是 计算 每 个 已 知 评分 对 投影 到 Py 中 每 个 潜在 
向 量 的 贡献 ， 然 后 计算 贡献 的 平均 值 。 平均 贡献 计算 如 下 。 令 百代 表 Pz 的 第 i CRE 
量 )， 其 中 第 j 项 为 ef 。 令 ri 为 R 中 用 户 w 对 物品 7 的 已 知 评分 。 则 用 户 对 投影 到 潜在 
癌 量 zi 的 贡献 为 rwjej;; 。 设 集合 I, 代 表 用 户 已 评分 的 物品 集合 。 用 户 在 第 i 个 潜在 向 量 
上 的 平均 贡献 计算 如 下 : 


Tuj eji 
au = (2-17) 
这 种 均值 归 一 化 的 方法 在 不 同 的 用 户 做 出 不 同 数量 的 评价 时 尤其 有 用 。 得 到 的 mxX4d 
和 矩阵 4 三 [as jmxa 便 是 原始 评分 矩阵 的 降 维 表示 。 在 基于 用 户 的 协同 过 滤 中 ， 这 个 降 维和 矩 
阵 被 用 来 计算 目标 用 户 的 近邻 同样， 也 可 以 将 此 方法 用 于 R 的 转 置 和 矩阵， 来 降低 用 户 的 
维度 (而 不 是 物品 的 维度 )。 在 基于 物品 的 协同 过 滤 中 利用 这 样 的 方法 来 计算 物品 的 近邻 
是 很 有 用 的 。 在 (24, 472] 中 讨论 了 使 用 该 降 维 表示 方法 来 推断 缺失 值 。 
2.5.1.2 不 完全 数据 的 直接 矩阵 分 解 
昌 然 前 面 的 方法 能 够 在 某 些 情况 下 修正 协 方差 估计 产生 的 偏差 ， 但 是 当 评分 矩阵 的 稀 
玻 程度 很 高 时 并 不 十 分 有 效 。 这 是 因为 协 方差 估计 要 求 物品 之 间 足 够 多 的 已 知 评分 来 进行 
健壮 的 估计 。 当 和 矩阵 稀 玖 时 ， 协 方差 的 估算 在 统计 学 上 来 说 是 不 可 靠 的 。 
一 种 更 直接 的 方法 是 使 用 矩阵 分 解 方法 。 像 奇异 值 分 解 之 类 的 方法 从 本 质 上 说 就 是 矩 
阵 分 解 方法 。 我 们 暂时 假设 m Xn AER 是 完全 已 知 的 。 在 线性 代数 [568] 中 ,一 个 
众所周知 的 事实 是 ， 任 何 〈 完 全 已 知 ) EE R 都 能 分 解 成 如 下 形式 : 
R = QEPT (2- 18) 
这 里 ，Q 是 一 个 m Xm 的 含有 RRT 的 m 个 正 交 特征 向 量 的 矩阵 。P 是 一 个 n Xn 的 含有 RTR 
的 守 个 正 交 特征 向 量 的 矩阵 。 马 是 一 个 和 Xn 的 对 角 和 矩 阵 ， 其 中 只 有 对 角 线 项 9 是 非 零 值 ， 
并 且 包 含 RIR (或 RR') 的 非 零 特 征 值 的 平方 根 。 值 得 注意 的 是 ，RTR 和 RRT 的 特征 向 量 
并 不 相同 并 且 当 mAn 时 维度 不 同 。 但 是 ,它们 总 是 拥有 相同 数量 的 非 零 特征 值 ， 且 值 相 
等 。 在 刀 对 角 线 上 的 值 也 被 叫 作 奇 异 值 。 





O 对 角 抢 阵 常常 是 方 阵 。 而 这 个 矩阵 不 一 定 是 方 阵 ， 抢 阵 中 只 有 行列 下 标 相 同 的 元 素 为 非 零 值 。 这 是 对 角 和 矩阵 
一 般 形 式 的 定义 。 
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更 进一步 ， 可 以 使 用 截断 (truncated) SVD 近似 分 解 矩 阵 ， 在 该 方法 中 ， 仅 使 用 前 a 
个 最 大 的 奇异 值 对 应 的 特征 向 量 ，d 过 min{m,n}。 截 断 SVD 计算 如 下 : 
R ~ Qa Za P} (2-19) 
XE Qa, M Pad HE m Xd, dXd FilnXd 的 矩阵 。Qz 和 Psa 分别 包含 RRT 和 RTR 的 前 
d EKRENE, Laf FRR 或 RRT 的 沿 对 角 线 前 d 个 最 大 的 特征 值 的 平方 根 。 值 得 注 
Biv, Pua GRR 中 最 大 的 特征 向 量 ， 这 是 降 维 所 需要 的 降 维 基 表 示 。 进 一 步 地 ，Q4Ba 
包含 原始 矩阵 在 Pa 对 应 的 基 上 转 置 并 降 维 的 mX4d 表示。 可 以 证 明 ， 这 种 近似 分 解 与 其 他 
rank-d 分 解 相 比 ， 对 近似 项 有 最 小 的 均 方 误差 。 因此， 如 果 我 们 使 用 公式 (2- 19) 对 评 
分 矩阵 R 进行 近似 分 解 ， 能 得 到 更 低 的 偏差 和 低 维基 下 的 表示 。 该 方法 的 主要 问题 是 评分 
矩阵 并 不 是 完全 已 知 的 。 因 此 矩阵 分 解 是 未 定义 的 。 不 过 ， 我 们 可 以 把 它 转 化 为 最 优化 问 
题 ， 其 中 分 解 的 均 方 差 仅 在 已 知 的 评分 项 上 进行 优化 。 同 时 也 可 以 显 式 地 使 用 非 线性 优化 
技术 解决 转化 后 的 问题 。 这 能 得 到 一 个 健壮 的 、 没 有 偏差 的 低 维 表示 。 并 且 ， 一 旦 确定 了 
降 维 分 解 和 矩阵 ， 便 能 够 使 用 公式 (2- 19) 来 直接 估计 评分 矩阵。 换 句 话说 ， 这 种 方法 具有 
超越 基于 近邻 的 方法 的 直接 效用 。 这 些 潜在 因子 模型 和 非 线性 优化 技术 将 在 第 3 章 3.6 节 
详细 讨论 。 读 者 应 该 阅读 该 节 来 学 习 如 何 使 用 转化 后 的 优化 问题 来 计算 低 维 表示 。 


2.6 近邻 方法 的 回归 模型 视角 

关于 基于 用 户 和 基于 物品 的 方法 的 一 个 重要 发 现 是 它们 利用 相同 物品 的 近邻 用 户 的 评 
分 或 相同 用 户 对 近邻 物品 的 评分 的 线性 函数 预测 评分 。 为 了 理解 这 一 点 ， 我 们 复制 基于 用 
户 的 近邻 方法 的 预测 函数 〈 即 公式 2-4): 


DJ ve pj) Sim(usv) {ry m pe) 


DJ ve p, o | Sim(us) | 

注意 预测 的 评分 是 相似 物品 评分 的 加 权 线 性 组 合 。 这 个 线性 组 合 被 限制 在 和 目标 用 户 zx E 
够 相似 的 用 户 对 物品 7 所 作出 的 评分 上 。 这 种 限制 是 通过 使 用 相似 评分 集合 已 G) 达成 
的 。 回 想 本 章 早 些 时 候 的 讨论 ，P,(j) 是 由 与 目标 用 户 “最 相近 的 & 位 用 户 组 成 ， 他 们 都 
对 物品 j 做 出 过 评价 。 注 意 到 如 果 我 们 允许 集合 P.G7) 包含 对 物品 7 的 所 有 评分 (而 不 仅 
仅 是 确定 的 相似 用 户 )， 那 么 预测 函数 将 变 得 和 线性 回归 [2 相似 9S 。 在 线性 回归 中 ， 仍 然 
使 用 其 他 评分 的 加 权 组 合 来 进行 预测 ， 并 且 权 重 (系数) 由 一 种 优化 模型 决定 。 在 基于 近 
邻 的 方法 中 ， 线 性 函数 的 系数 是 由 一 种 启发 式 方法 在 用 户 - 用 户 相 似 度 中 决定 ， 而 不 是 使 
用 优化 模型 。 

在 基于 物品 的 近邻 方法 中 也 观察 到 相似 的 情况 ， 预 测 函 数 〈 即 公式 (2-15)) WF: 

2 jea, AdjustedCosine(j 52) rw 
> Dn | AdjustedCosine(j ,1) | 
集合 Q, (ze) 代表 了 与 目标 物品 上 最 相近 的 & 个 也 被 用 户 x 评价 过 的 物品 。 这 种 情况 中 ， 用 
户 & 对 目标 物品 上 的 评分 表达 为 她 自己 做 出 过 的 评分 的 线性 组 合 。 正 如 在 基于 用 户 方法 
中 ， 线 性 组 合 的 系数 是 由 相似 度 值 启发 定义 的 。 因 此 ， 基 于 用 户 的 模型 将 预测 的 评分 表达 
为 同一 列 中 评分 的 线性 组 合 。 而 基于 物品 的 模型 表达 为 同一 行 中 评分 的 线性 组 合 。 从 这 种 
观点 来 看 ， 基 于 近邻 的 模型 是 线性 回归 模型 的 启发 式 变形 ， 其 中 系数 被 启发 式 地 设 定 为 相 





(2- 20) 


人 Ct 
Puj = Pu 





A 
> Tu 


(2-21) 





日 第 4 章 4.4.5 节 中 介绍 基于 内 容 的 系统 时 会 对 线性 回归 进行 讨论 。 
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关 〈 相 邻 ) 物品 /用 户 的 相似 性 ， 若 物品 /用 户 不 相关 ， 则 系数 设 为 0。 

值得 注意 的 是 ， 用 相似 度 值 作为 组 合 权 重 是 相当 启发 式 的 而 且 随 意 的 。 这 样 的 系数 不 
能 表达 物品 之 间 的 相互 依赖 。 例 如 ， 如 果 一 个 用 户 对 相关 的 物品 做 出 了 相似 的 评分 ， 那 么 
这 些 物 品 的 系数 之 间 就 会 相互 依赖 。 把 相似 度 作 为 启发 式 权 重 就 没 能 考虑 到 这 种 相互 依赖 
的 关系 。 

那么 问题 来 了 ,我 们 能 否 使 用 最 优化 方法 来 学 习 权 重 从 而 获得 更 好 的 结果 。 事 实 上 ， 
我 们 能 够 从 类 似 回 归 的 模型 衍生 出 基于 用 户 和 基于 物品 的 方法 。 在 已 有 的 研究 工作 中 提出 
了 几 种 利用 基于 用 户 的 模型 、 基 于 物品 的 模型 ， 或 者 基于 两 者 结合 的 模型 的 优化 方法 。 这 
些 模型 可 以 被 看 作 启 发 式 最 近邻 模型 的 理论 泛 化 。 这 些 模 型 的 优势 是 它们 被 更 好 地 构建 成 
非 模 糊 优化 问题 ， 并 且 组 合 评分 的 权重 能 够 被 调整 得 更 好 ， 因 为 从 建 模 角度 来 说 ,它们 具 
有 可 优化 性 。 接 下 来 ， 我 们 讨论 一 种 基于 最 优化 的 近邻 模型 ， 它 是 [309] 中 方法 的 一 种 
简化 。 这 也 为 将 该 模型 与 其 他 最 优化 模型 〈 如 第 3 章 3. 7 节 中 的 矩阵 分 解 模型 ) 的 结合 做 
好 了 准备 。 


2.6.1 基于 用 户 的 最 近邻 回归 


考虑 公式 (2-20) 中 基于 用 户 的 预测 。 我 们 可 以 把 〈 归 一 化 的 ) 相似 度 系数 用 未 知 参 
Awn KEM, 来 建 模 目标 用 户 & 对 物品 7 的 预测 评分 7 : 

Pj = put >) wS e (ry — po) (2-22) 

vEP, (7) 

在 近邻 模型 中 我 们 可 以 使 用 Pearson 相关 系数 来 定义 P,(j)。 然 而 在 这 个 模型 里 ， 对 P, G) 
的 定义 却 有 着 微妙 但 重要 的 不 同 。 在 基于 近邻 的 模型 中 ，P,(j) 是 与 目标 用 户 最 相似 的 
且 对 物品 7 已 做 出 过 评价 的 & 位 用 户 。 因 此 ， 当 至 少 有 & 位 用 户 评价 过 物品 地 时 ，P. (7) 
的 大 小 通常 为 &。 而 在 回归 方法 中 ， 定 义 集合 P, O 要 首先 确定 与 每 位 用 户 最 相近 的 上 位 
用 户 ， 然 后 保留 评分 已 知 的 用 户 。 因 此 ， 集 合 P.(G7) 的 大 小 通常 明显 小 于 &。 正 因为 它们 
Xi k 的 解释 不 同 ， 所 以 在 回归 框架 中 对 参数 的 设置 需要 比 近邻 模型 中 的 & 大 很 多 。 

未 知 系数 ww 控制 着 用 户 预测 评分 的 一 部 分 ， 即 ws e (rw 一 jo)， 该 系数 是 由 用 户 
u SHP v 的 相似 度 决定 的 。ww” 和 ww 的 值 是 有 可 能 不 同 的 。 同 样 值得 注意 的 是 ， 根 据 
公式 (2-22)， 只 有 与 用 户 w (基于 Pearson 系数 ) 最 相近 的 上 位 用 户 对 应 的 tw“* 才 被 用 于 
计算 ,其 他 用 户 的 ww“ 则 没有 被 用 到 ， 因 此 也 不 需要 学 习 。 这 能 有 效 地 减少 回归 系数 的 
个 数 。 

我 们 可 以 使 用 预测 评分 7 (根据 公式 (2-22)) 和 已 知 评分 rw 的 方差 建立 一 个 目标 函 
数 ， 来 估计 一 组 特定 系数 集合 的 质量 。 因 此 ， 我 们 能 够 使 用 矩阵 中 已 知 的 评分 对 未 知 值 
zw 建立 一 个 最 小 二 乘 优化 问题 ， 来 最 小 化 总 误差 。 其 基本 思想 是 在 回归 模型 中 ， 利 用 与 
AP u 最 相近 的 & 位 用 户 来 预测 用 户 x 的 每 个 〈 已 知 的 ) 评分 。 所 有 被 用 户 u 评价 过 的 物 
品 的 方差 被 求 和 得 到 一 个 最 小 二 乘 。 因 此 ， 我 们 可 以 为 每 个 目标 用 户 建立 一 个 最 优化 问 
题 。 令 五代 表 用 户 x 评价 过 的 物品 集合 。 第 x 位 用 户 的 最 小 二 乘 目 标 函 数 可 被 表示 为 在 回 
归 模 型 中 利用 * 的 个 最 近邻 对 TI 中 每 个 物品 的 预测 评分 的 方差 求 和 : 

Minimize Ja = >) (rg — Pu)? = J, (rg — [pet D>) wit + (rg — po) |)’ 

j€l, i€l, vEP G) 
第 二 个 关系 式 是 通过 用 公式 2-22) 中 的 表达 式 替 换 rw 得到。 注意 这 种 优化 问题 需要 对 
每 个 目标 用 户 分 别 构建 。 不 过 ， 我 们 也 可 以 将 不 同 用 户 xE (lem) 的 目标 函数 值 凡 加 


[ 54 | 


到 一 起 ， 其 优化 解 并 不 会 因此 发 生变 化 。 这 是 因为 不 同 的 J 是 由 彼此 不 相交 的 系数 ww 所 
决定 的 。 因此， 我 们 有 下 面 的 联合 形式 : 


Minimise 3! fo 3" 3! (ra = peck cat Cd ga 
u=] ve P (7) 


u=1jEl, 
我 们 可 以 在 它们 的 分 解 形式 中 更 高 效 地 解决 每 个 更 小 的 最 优化 问题 〈 比 如 ， 目 标 函 数 J )， 
而 不 影响 总 体 的 解 。 不 过 ， 联 合 形式 具有 其 独特 的 优点 ， 它 可 以 和 其 他 最 优化 模型 相 结合 
(比如 第 3 章 3.7 节 中 的 矩阵 分 解 方法 ) 相 结合 ， 这 是 分 解 形式 所 做 不 到 的 。 无 论 如 何 ， 
如 果 单 独 使 用 线性 回归 ， 那 么 在 分 解 形式 下 求解 是 有 意义 的 。 

统一 和 分 解 的 最 优化 模型 都 是 最 小 二 乘 优化 问题 。 这 些 方法 可 以 通过 任何 现成 的 最 优 
化 解决 方法 解决 。 对 线性 回归 问题 的 解析 解 请 参考 第 4 章 4.4.5 节 。 为 了 从 一 定 程度 上 避 
免 过 拟 合 ， 大 部 分 的 解决 方法 都 会 进行 正则 化 〈regularization) 。 正 则 化 的 基本 思想 是 通 


过 对 每 个 〈 分 解 的 ) ARB GABBA D cr Dove pci (waa)? 来 降低 模型 复杂 度 。 
其 中 >0 是 一 个 用 户 定义 的 参数 ， 用 来 调整 权重 ,X27 ;el Dicey) (we)? 加 罚 那些 很 
大 的 系数 ， 因 此 它 能 使 系数 的 绝对 值 减 小 。 更 小 的 系数 带 来 更 简单 的 模型 并 且 减 少 过 度 拟 
合 。 但是， 正如 接 下 来 讨论 的 ， 有 些 时 候 仅 使 用 正则 化 不 足以 减少 过 度 拟 合 。 

2.6.1.1 稀疏 性 和 偏差 问题 

回归 方法 的 一 个 问题 是 ， 由 于 评分 和 矩阵 的 稀疏 性 ， 对 同一 用 户 wu 和 不 同 的 物品 7/ 来 
W, Pe 的 大 小 可 能 相差 很 大 。 这 导致 回归 系数 严重 依赖 于 评价 过 物品 7 且 与 x 相似 的 
用 户 的 数量 。 例 如 ， 考 虑 一 个 目标 用 户 wx 同时 评价 过 《Gladiator》 和 《Nero》 的 情况 。z 
的 & 个 最 近邻 中 ， 仅 有 一 名 用 户 评价 过 电影 《Gladiator》， 同 时 所 有 的 位 用 户 都 评价 过 
《Nero》。 这 就 导致 评价 过 《Gladiator》 的 用 户 vv 对 应 的 回归 系数 ww 将 受到 “w 是 唯一 评 
价 过 《Gladiator》 的 与 相似 的 用 户 ” 这 一 事实 的 严重 影响 。 这 会 导致 过 度 拟 合 ， 因 为 这 
个 (统计 上 不 可 靠 的 ) 回归 系数 可 能 给 其 他 电影 评分 的 预测 带 来 噪声 。 

一 个 基本 的 想法 是 改变 预测 函数 并 且 假 设 物品 7 的 回归 仅 预 测 目标 用 户 w 对 物品 j 的 


一 部 分 [Ps 上 |。 这 隐 含 了 回归 系数 对 应 的 用 户 是 所 有 与 目标 用 户 相似 的 用 户 这 一 假设 ， 


而 且 必须 将 不 完全 的 信息 插入 为 一 部 分 。 因 此 ， 这 种 方法 改变 了 回归 系数 的 解释 方式 。 在 

这 种 情况 下 ， 公 式 (2-22) 中 的 预测 函数 修改 如 下 : 

ME oga 
k 


uj 


put D) wi e Cry — po) (2-24) 
ve P (让 


有 时 ， 使 用 很 多 其 他 的 启发 性 调整 。 例 如 ， 根 据 [312] 的 想法 ， 我 们 可 以 使 用 启发 式 调 

MAF [PD 。 该 因子 也 能 被 简化 为 VTEwtj)T， 因 为 常数 因子 被 最 优化 变量 吸收 。 

一 个 关联 的 改进 是 使 用 偏差 变量 入 代替 常量 偏 移 ks， 这 个 变量 在 最 优化 过 程 中 学 习 得 到 。 

对 应 的 预测 模型 ， 包 括 启发 式 调整 因子 ， 定 义 如 下 

Pier Gy Wa (ry by) 
VTPuG 

注意 到 这 个 模型 不 再 是 线性 的 ， 因 为 含有 两 项 最 优化 变量 的 乘积 use «ON. IEE, ME 


个 例子 一 样 ， 可 以 使 用 同样 的 最 小 二 乘法 。 除 了 用 户 偏差 ， 我 们 也 可 以 引入 物品 偏差 。 在 
这 种 情况 中 ， 模 型 变 为 如 下 情况 : 


Fuj — pe 十 


(2-25) 
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user | pitem barre Wan ry — BE — BF") 

puser 十 pitem 十 i (2-26) 
ae 一 步 ， 我 们 推荐 通过 减 去 所 有 已 知 项 的 平均 值 来 中 心 化 整个 评分 矩阵 到 它 的 全 局 中 

。 整 体 平均 值 最 后 需要 被 加 到 预测 结果 上 。 此 模型 的 主要 问题 是 计算 代价 。 我 们 必须 预 
IETARI ASSR. 这 是 很 消耗 计算 资源 的 ， 对 于 m 位 用 户 需 要 O (mi) 
的 空间 。 这 个 问题 和 在 传统 基于 近邻 模型 中 遇 到 的 类 似 。 这 种 模型 适合 于 随 着 时 间 的 推 
移 ， 物品 空 间 变化 剧烈 ， 但 用 户 相对 稳定 的 情况 1 下。 其 中 一 个 例子 是 新 闻 推 荐 系统 。 


2.6.2 基于 物品 的 最 近邻 回归 


基于 物品 的 方法 和 基于 用 户 的 方法 类 似 ， 只 是 回归 方法 不 是 利用 用 户 - 用 户 的 关联 学 
习 ， 而 是 利用 物品 -物品 的 关联 进行 学 习 。 考 虑 公式 (2-21) 基于 物品 的 预测 ， 我 们 可 以 
用 未 知 的 参数 wr" 蔡 换 ( 泛 化 的 ) 相似 度 系数 AdjustedCosine(j, 2) KHAA u 对 目标 物 
品 上 的 评价 预测 建 模 : 


A 
Fuj 


Pa = D) wW ory (2-27) 


EQ D 中 的 最 近邻 物品 可 以 和 基于 物品 的 近邻 方法 中 一 样 ， 使 用 调整 的 余弦 函数 决定 。 
集合 Q,(u) 代表 目标 物品 上 的 & 个 最 近邻 的 子 集 ， 这 些 物品 均 被 用 户 评价 过 。 这 种 定义 
Qu) 的 方法 与 传统 的 基于 近邻 的 方法 略 有 不 同 ， 因 为 Q,(x) 的 大 小 可 能 明显 小 于 有 。 在 
传统 的 近邻 方法 中 ， 我 们 确定 用 户 做 出 过 评价 的 与 目标 物品 t 最 相似 的 & 件 物品 ， 因 此 
近邻 集合 的 大 小 通常 为 &。 这 个 改动 是 为 了 高 效 实现 基于 回归 的 方法 所 需要 的 。 

未 知 系数 wx" 控制 着 物品 t 的 预测 评分 的 一 部 分 ， 即 wi?*"， rw ， 该 系数 是 由 物品 7 和 
物品 t 的 相似 度 决定 的 。 我 们 应 该 最 小 化 公式 (2-27) 中 的 预测 误差 来 保证 最 健壮 的 预测 
模型 。 我 们 可 以 利用 和 矩阵 中 的 已 知 评分 对 未 知 值 wh" 建立 最 小 二 乘 问题 以 最 小 化 总 体 误 
差 。 其 基本 思想 是 对 每 一 个 已 知 评分 的 物品 :， 利 用 与 1 最 相似 的 & 件 物品 预测 t 的 评分 ， 
然后 计算 方差 建立 最 小 二 乘 的 表达 式 。 因 此 我 们 为 每 个 目标 物品 t 建立 最 优化 问题 。 令 U, 
表示 评价 过 目标 物品 上 的 用 户 集 合 。 第 t 个 物品 的 最 小 二 乘 目 标 函 数 可 以 被 表示 为 对 U, 中 
所 有 物品 的 预测 评分 的 方差 之 和 : 

Minimize J; = > Cru — Fu)? = >; (ru as Sy witem © uj j 


uEU, «€U, JEQ CO 
注意 这 一 最 优化 问题 是 针对 每 件 目标 物品 +t 分 别 构 建 的 。 但 是 我 们 也 能 够 将 这 些 不 同 的 值 
加 起 来 ， 其 优化 解 并 不 会 因此 发 生变 化 。 这 是 因为 对 于 不 同 的 目标 物品 :€ {1…n) 来 说 ， 
不 同 目标 函数 ,中 的 未 知 系数 wi" 是 彼此 不 相交 的 。 因 此 ， 我 们 有 下 面 的 联合 形式 : 
Minimize Y’ e$ te = EF wien © uj y (2-28) 


t=lu€U, jEQ D 

这 是 一 个 最 小 二 乘 回归 问题 并且 可 以 通过 任何 已 有 的 解决 方法 解决 。 更 进一步 ， 我们 也 
可 以 在 分 解 形式 中 更 高 效 地 解决 每 一 个 更 小 的 最 优化 问题 〈 比 如， 对象 函数 J,)， 而 不 影 
响 整 体 解 。 不 过 ， 联 合 形式 具有 其 独特 的 优点 ， 它 可 以 和 其 他 最 优化 模型 相 结 合 ， 比 如 和 拢 
阵 分 解 方法 〈 见 第 3 章 3.7 节 )。 和 基于 用 户 的 方法 一 样 ， eee 


题 。 我 们 可 以 对 对 象 函数 JIA TEM EF AD) ,ev DU wim)? 


JEQ u) 
2.6.1.1 节 中 对 基于 用 户 模型 的 讨论 一 样 ， 我 们 可 以 引入 调整 因子 和 偏差 变量 来 提 
高 性 能 。 例 如 ， 公 式 (2-26) 中 基于 用 户 的 预测 模型 在 物品 空间 上 具有 如 下 形式 : 


[本 ] 
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PD } mitem = (hs = Baser 一 pite™) 

f EQ (u) Jt uj u J 

r 二 part + pitem + J $ (2-29) 
i TQ 


更 进一步 ,我们 假设 了 评分 已 经 被 中 心 化 到 整个 评分 和 矩阵 的 全 局 平均 值 上 。 因 此 在 构建 模 
型 之 前 要 从 每 项 评分 中 减 去 全 局 均值 。 所 有 预测 都 在 中 心 化 的 评分 上 进行 ， 然 后 将 全 局 均 
值 加 回 每 项 预测 。 在 模型 的 某 些 变 式 中 ,括号 中 的 偏差 因子 bw 十 bx*" 被 统一 的 常量 Bw AR 
蔡 。 这 个 常量 是 从 第 3 章 3. 7. 1 节 中 描述 的 一 种 非 个 性 化 方法 中 获取 的 。 得 到 的 预测 模型 
如 下 : 





ee oh e Cry — By) 
VIQ CT 

构建 好 一 个 最 小 二 乘 模型 后 ， 我 们 使 用 一 种 梯度 下 降 法 来 解决 最 优化 参数 问题 。 这 正 是 

[309] 中 使 用 的 模型 。 梯 度 下 降 步 又 在 第 3 章 3. 7. 2 节 中 讨论 。 用户- 用 户 模型 被 公认 为 

比 物品 -物品 模型 表现 略 好 [2 。 但 是 基于 物品 的 模型 在 物品 比 用 户 少 很 多 的 情况 下 远 比 

用 户 - 用 户 模型 的 时 空 效率 更 高 。 


2.6.3 基于 用 户 的 方法 和 基于 物品 的 方法 的 结合 


在 统一 回归 框架 下 ， 我 们 很 自然 地 将 基于 用 户 的 模型 和 基于 物品 的 模型 结合 
来 8123] 。 因 此 ， 我 们 同时 基于 它 与 相似 用 户 和 相似 物品 的 关系 来 预测 评分 。 这 是 通过 结合 
公式 〈2-26) 和 公式 (2-30) 中 的 想法 而 产生 的 如 下 表达 式 : 
EAT was ie ae wi 4: ere wy e (rw — Bw) 


y | Pa Q) V |Q Cu) 


Pua = puser 十 pitem 4 (2-30) 


faj = ar 十 byem 十 


(2-31) 
和 之 前 的 用 例 一 样 ， 我 们 假设 了 评分 矩阵 已 经 被 中 心 化 到 其 全 局 平均 值 上 。 相 似 的 最 小 二 
乘法 可 以 用 来 使 在 所 有 已 知 项 上 的 预测 产生 的 误差 的 方差 最 小 化 。 在 这 种 情况 下 ， 我 们 不 
再 能 够 将 最 优化 问题 分 解 为 相互 独立 的 子 问题 。 因 此 ， 单 一 的 最 小 二 乘 模型 被 建立 在 评分 
和 矩阵 中 的 所 有 已 知 项 上 。 和 上 个 用 例 一 样 ， 可 以 使 用 梯度 下 降 法 。[312] 中 报告 说 ， 融 合 
基于 物品 和 基于 用 户 而 产生 的 模型 通常 比 独立 的 模型 表现 更 好 。 


2.6.4 具有 相似 度 权 重 的 联合 插值 


[72] 中 使 用 了 一 种 不 同 的 思想 来 建立 联合 的 基于 近邻 的 模型 。 其 基本 思想 是 利用 公 
式 (2-22) 基于 用 户 的 模型 来 预测 目标 用 户 的 每 个 评分 ， 然 后 我 们 不 再 将 其 与 相同 物品 
的 已 知 评分 进行 比较 ， 而 是 将 其 与 该 用 户 对 其 他 物品 的 评分 进行 比较 。 
令 S 代表 评分 和 矩阵 中 所 有 已 知 评分 的 用 户 - 物 品 对 的 集合 : 
S= (Cat) :ra BA} (2-32) 
我 们 建立 一 个 目标 函数 ， 当 对 物品 j 的 预测 评分 7 MRAP u 对 相似 物品 s 的 已 知 评分 相 
差 较 远 时 ， 对 其 施加 惩罚 。 目 标 用 户 x 的 目标 函数 定义 如 下 : 
Minimize D Sy AdjustedCosine(j,s) * (rus — Puj)’ 
selu E Sjj Es 
= J, 5D) AdjustedCosinelj,s) e (ru — [put D) wi + Crj] 
s1(uss) € Sj JAS v€ P G) 


FET AT VATE WU He AERAR a EA. EPL) 是 目标 用 户 x 的 最 近 的 且 评 价 过 物 
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mj 的 & 位 用 户 。 因此， 在 本 例 中 ， 我 们 使 用 了 基于 近邻 的 方法 中 Pi.(j) 的 传统 定义 。 

通过 将 调整 余弦 作为 目标 函数 中 的 每 个 物品 的 乘法 因子 (multiplicative factor), KA 
方法 迫使 目标 用 户 对 相似 物品 的 评分 更 加 相近 。 值 得 注意 的 是 ， 在 该 方法 中 ， 用 户 和 物品 
相似 度 都 被 使 用 了 ， 但 使 用 的 方式 不 同 : 

1) 物品 -物品 相似 度 被 用 作 目 标 函 数 中 的 乘法 因子 ， 来 迫使 预测 的 评分 和 相似 物品 的 
已 知 评分 更 加 接近 。 

2) 用 户 - 用 户 相似 度 被 用 来 将 回归 系数 限制 到 与 目标 用 户 u 相关 的 相似 用 户 组 P,(j) 
上 。 尽 管 原则 上 来 说 ， 也 可 以 交换 用 户 和 物品 的 角色 来 建立 一 个 不 同 的 模型 ， 但 是 在 
[72] 中 说 道 ， 这 种 模型 不 如 上 面 讨 论 的 模型 有 效 。 这 种 模型 能 够 通过 许多 现 有 的 最 小 二 
乘法 解决 。 在 [72] 中 也 讨论 了 很 多 处 理 稀疏 问题 的 方法 。 


2.6.5 稀疏 线性 模型 


2. 6. 2 节 中 介绍 了 一 种 有 趣 的 基于 物品 一 物品 回归 的 模型 [55] 。 这 类 模型 被 称 为 稀疏 线 
性 模型 (sparse linear model)， 因 为 它们 通过 在 回归 系数 中 使 用 正则 化 方法 从 而 支持 稀 玖 
te. 5 (72, 309] 中 的 方法 不 同 ， 这 类 方法 只 适用 于 非 负 评分 。 因 此 , 与 之 前 章节 中 使 
用 的 技术 不 同 ， 这 类 方法 不 再 要 求 评分 矩阵 是 平均 中 心 化 的 ， 这 是 因为 平均 中 心 化 会 自动 
产生 对 应 “不 喜欢 ”的 负 值 。 而 在 非 负 评分 中 ， 没 有 方法 来 确定 不 喜欢 。 从 特定 角度 来 
说 ， 这 种 方法 最 适合 隐 式 反馈 和 矩阵 〈 比 如 ， 点 击 数据 或 成 交 数 据 )， 用 户 的 这 些 行 为 中 ， 
只 表达 了 正面 的 喜好 。 更 进一步 ， 在 隐 式 反馈 设 定 中 ， 常 常 将 未 知 值 当 作 0 以 便于 训练 最 
优化 模型 。 最 优化 模型 最 终 会 对 某 些 值 给 出 很 高 的 预测 评分 ， 这 样 的 用 户 - 物 品 组 合 将 是 
绝 佳 的 推荐 候选 。 因 此 ， 在 训练 数据 集 上 预测 误差 为 0 的 前 担 下 ， 该 方法 对 物品 进行 
排序 。 

与 2. 6. 2 节 中 的 技术 不 同 ， 这 些 方法 不 再 将 回归 系数 限制 在 目标 物品 t 的 近邻 上 。 因 
此 ，SLIM 中 的 预测 函数 表达 如 下 : 


Pa = >) wt orj YuE {lem}, Vt © {len} (2-33) 
j=l 


注意 和 公式 (2-27) MHA. AX (2-27) 中 ， 仅 使 用 目标 物品 的 近邻 来 构建 回归 系数 。 
其 中 很 重要 的 一 件 事 是 需要 将 目标 物品 本 身 从 公式 右手 边 排除 来 防止 过 度 拟 合 。 可 以 通过 
Rew" =0 KARZAI. +R=(ry] 代表 预测 的 评分 矩阵 并 且 令 Wiem 王 [wii ] 代表 
物品 -物品 回归 和 矩阵 。 因 此， 如 果 我 们 假设 Wie 的 对 角 元 素 都 被 限制 为 0， 那么 我 们 就 能 
将 公式 (2-33) 在 不 同 用 户 和 目标 物品 上 的 实例 堆 秋 起 来 ， 以 创建 下 面 的 基于 和 矩阵 的 预测 
函数 : 
R = RWitem 
Diagonal(W'*™) = 0 

因此 ， 主 要 目标 是 将 Frobenius 范 数 || R-RW*™ || ?与 一 些 正则 化 参数 一 起 最 小 化 。 这 个 
目标 函数 在 W 的 不 同行 〈 比 如 ， 回 归 中 的 目标 物品 ) 上 是 分 离 的 。 因 此 我 们 可 以 独立 地 
解决 每 一 个 最 优化 问题 (对 于 一 个 目标 物品 t 的 给 定 值 );， 同 时 要 将 wi*™ 设 为 0。 为 了 建立 
一 个 更 加 可 解释 的 部 分 之 和 的 回归 ， 权 重 向 量 被 限制 为 非 负 ,因此 ， 对 目标 物品 1 的 目标 
函数 也 许 能 被 表达 为 如 下 : 


加 ”该 方法 能 适应 于 任意 的 评分 矩阵 。 然 而 该 方法 的 主要 优势 是 体现 在 非 负 的 评分 矩阵 上 。 
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Minimize J= >) (ru — fu)? +A * >) Cwm)? +a, © >) | wit | 
1 j=l a= 


u= 


= J) (ra= D wit + ra J Hae D Celt)? bar e D laie | 
u=] j=1 = j=l 


= j=l 


满足 : 
wi >0 Vi E {len} 
a == 0 


目标 函数 中 的 最 后 两 项 对 应 弹性 网 络 正 则 化 方法 (elastic-net regularizer), EAA SLi 和 
LoiE We. [242] 证 明 ， 工 正则 化 组 件 会 导致 wi 的 稀 玖 性 ， 这 意味 着 大 部 分 系数 wi 都 为 
0。 这 种 稀 朴 性 保证 每 个 预测 的 评分 能 够 被 表达 为 少数 相关 物品 评分 的 线性 组 合 。 更 进 一 
步 ， 由 于 权重 是 非 负 的 ， 物 品 的 正 相 关 性 根据 回归 中 每 个 评分 的 影响 力 的 级 别 来 确定 ， 这 
种 方法 是 高 度 可 解释 的 。 最 优化 问题 可 以 使 用 坐标 下 降 法 解决 ， 当 然 ， 原 则 上 任何 现 有 的 
解决 方案 都 能 够 使 用 。 一 些 更 快 的 技术 在 [347] 中 讨论 。 这 一 技术 还 能 与 辅助 信息 CW 
第 6 章 6.8.1 节 ) 相 结合 [456] 。 

显而易见 ， 这 一 模型 与 前 面 几 节 中 讨论 的 基于 近邻 的 回归 模型 有 很 深 的 联系 。SLIM 
模型 与 [309] 中 的 线性 回归 模型 的 主要 区 别 如 下 : 

1) [309] 中 的 模型 将 每 个 目标 的 非 零 系数 限制 在 & 个 最 相似 的 物品 上 。SLIM 模型 能 
够 使 用 |U, | 个 非 零 系数 。 例 如 ， 如 果 一 件 物品 被 所 有 用 户 评 价 过 ， 那么 所 有 的 系数 都 会 
被 使 用 。 然 而 ，ws™ 的 值 被 置 为 0 以 防止 过 度 拟 合 。 更 进一步 ，SLIM 方法 通过 使 用 弹性 
网 络 正则 化 方法 来 强制 稀疏 性 ， 而 [309] 中 的 方法 基于 显 式 近邻 计算 预先 选择 权重 。 换 
名 话说，[L309] 中 的 方法 使 用 一 种 启发 式 的 方法 选择 特性 ， 而 SLIM 方法 使 用 学 习 (正则 
化 ) 方法 来 选择 特性 。 

2) SLIM 模型 最 初 是 为 隐 式 反馈 数据 (比如 ， 购 买 物品 或 顾客 点 击 ) 设计 的 。 在 这 
些 情况 中 ， 评 分 通常 是 一 元 的 ， 顾 客 的 行为 表示 积极 偏好 ， 而 不 购买 或 不 点 击 的 行为 不 一 
定 表示 消极 偏好 。 这 一 方法 也 被 用 于 “评分 ”是 任意 的 表示 积极 偏好 的 值 〈 比 如 ， 购 买 产 
品 的 数量 )。 注 意 这 些 场景 通常 有 利于 强制 系数 非 负 的 模型 。 正 如 你 将 要 在 第 3 章 学 到 的 ， 
这 一 观测 结果 也 对 其 他 模型 有 效 ， 比 如 矩阵 因子 分 解 。 例 如 ， 非 负 和 矩阵 因子 分 解 首 先 对 隐 
式 反 馈 数 据 集合 有 效 ， 但 是 对 随机 评分 并 不 那么 有 效 。 其 部 分 原因 是 ， 当 评分 同时 表示 喜 
欢 和 不 喜欢 时 ， 非 负 的 ， 部 分 之 和 的 分 解 失去 了 它 的 可 解释 性 。 例 如 ， 两 个 “不 喜欢 ”的 
评分 之 和 不 会 是 “喜欢 ”评分 。 

3) [309] 中 的 回归 系数 既 可 以 为 正 ， 也 可 以 为 负 。 而 SLIM 中 的 系数 被 限制 为 非 负 。 
这 是 因为 SLIM 方法 最 初 是 为 隐 式 反馈 而 设计 的 。 在 这 些 隐 式 反馈 中 ， 非 负 性 通常 更 加 显 
而 易 见 ， 而 且 结 果 更 加 可 解释 。 事 实 上 ， 在 某 些 情况 下 ,强制 非 负 或 许可 以 提高 9 准确 
性 。 然 而 ，[347] 中 一 些 受 限 的 实验 结果 表明 ， 移 除非 负 限 制 能 够 产生 更 好 的 表现 。 

4) 虽然 SLIM 方法 也 提出 了 一 种 预测 评分 的 模型 (根据 公式 (2-33)),， 但 是 预测 值 


的 最 终 使 用 方法 是 将 物品 按 预 测 值 排序 。 注 意 这 种 方法 通常 用 于 一 元 评分 。 因 此 ， 利 用 预 


日 ”值得 注意 的 是 ， 施 加 一 个 附加 的 约束 ,例如 非 负 ， 总 是 会 降低 在 已 知 项 上 优化 解 的 质量 。 另 一 方面 ,施加 约 
束 会 增加 模型 的 偏差 并 降低 模型 的 方差 ， 这 会 减少 在 未 知 项 上 的 过 拟 合 。 事 实 上 ， 当 两 个 关联 紧密 的 模型 在 
已 知 项 和 未 知 项 上 的 性 能 上 具有 冲突 的 相关 表现 时 ， 常 常 是 由 于 在 两 种 情况 下 过 拟 合 程度 不 同 所 导致 的 。 在 
第 6 章 中 将 介绍 偏差 一 方差 权衡 的 策略 。 一 般 而 言 ， 利 用 物品 一 物品 之 间 的 正 关系 比 负 关系 预测 的 项 评分 更 加 
可 靠 。 非 负 约束 就 是 基于 这 个 观察 。 在 小 数据 集 上 以 这 种 自然 约束 的 形式 加 人 模型 偏差 会 十 分 有 效 。 
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测 值 来 排序 物品 比 预 测评 分 更 有 意义 。 一 种 可 选择 的 解释 预测 值 的 方法 是 将 它们 每 个 都 看 
成 是 用 0 替换 一 个 非 零 评 分 所 带 来 的 误差 。 误 差 越 大 ， 评 分 的 预测 值 就 越 大 。 因 此 ， 物 品 
可 以 以 预测 值 的 顺序 来 排序 。 

5) 与 [309] 中 的 方法 不 同 ，SLIM 模型 没有 使 用 启发 式 调整 因子 针对 不 同 的 具体 评 
分 显 式 调整 。 例 如 ,一 方面 ， 公 式 (2-29) 的 右手 边 在 分 子 上 使 用 了 调整 因子 V1Q:(x)  。 
另 一 方面 ，SLIM 方法 中 没有 使 用 这 样 的 调整 因子 。 调 整 问题 对 于 一 元 数据 集合 的 情况 来 
说 并 不 显著 ， 在 一 元 数据 中 ， 物 品 的 出 现 是 唯一 可 用 的 信息 。 在 这 种 情况 下 ， 用 0 代替 未 
知 值 是 共同 的 做 法 ， 并 且 这 么 做 的 偏差 比 用 评分 代表 不 同 层 次 的 喜欢 和 不 喜欢 时 的 误差 小 
RE. 

因此 ， 这 些 模型 有 一 些 概念 上 的 相似 性 ， 但 是 在 细节 上 有 一 些 差 别 。 


2.7 基于 近邻 方法 的 图 模型 


基于 近邻 的 方法 中 ， 已 知 评分 的 稀 朴 性 给 相似 性 计算 带 来 了 困难 。 因 此 一 些 图 模型 使 
用 结构 传递 或 者 排序 技术 来 定义 基于 近邻 方法 中 的 相似 性 。 图 是 一 种 强大 的 抽象 ， 它 使 许 
多 从 网 络 衍生 的 算法 工具 得 以 可 用 。 图 提供 了 很 多 用 户 或 物品 的 一 种 结构 化 的 表示 。 图 可 
以 在 用 户 上 建立 ， 可 以 在 物品 上 建立 ， 也 可 以 同时 在 两 者 上 建立 。 这 些 不 同类 型 的 图 导致 
了 多 种 算法 ， 这 些 算 法 使 用 随机 游 走 或 者 最 短路 径 法 来 做 推荐 。 接 下 来 ， 我 们 将 描述 多 种 
图 表示 下 的 评分 矩阵 所 使 用 的 推荐 算法 。 


2.7.1 用户- 物品 图 


在 用 户 一 物品 图 上 不 必 使 用 Pearson 相关 系数 ， 而 可 以 使 用 结构 化 测度 来 定义 近邻 。 
这 一 方法 对 于 稀 玻 评分 矩阵 更 加 高 效 ， 因 为 我 们 可 以 使 用 边 的 传递 结构 来 进行 推荐 工作 。 

用 户 一 物品 图 是 一 个 无 向 二 分 图 G 二 (NU N;,A)， 这 里 和 N, 代 表 用 户 的 顶点 集合 ，N; 
代表 物品 的 项 点 集合 。 图 中 的 所 有 边 仅 在 用 户 和 物品 之 间 存 在 。 当 和 且 仅 当 用 户 i 评价 过 物 
品 7 时 ，A 中 存在 用 户 i 与 物品 7 之 间 的 无 向 边 。 因 此 ， 边 的 数目 与 评分 和 矩阵 中 的 已 知 项 
的 数目 相同 。 例 如 ， 图 2- 3a 中 的 评分 矩阵 的 用 户 一 物品 图 表示 为 图 2-3b。 基 于 图 的 方法 
的 主要 优势 是 两 位 用 户 不 需要 共同 评价 过 许多 物品 才能 被 认为 是 近邻 ， 而 是 只 要 两 位 用 户 
之 间 存 在 许多 短路 径 就 行 。 因 此 ， 这 种 定义 允许 在 非 直 接 相 连 的 结 点 间 构 建 近邻 。 当 然 ， 
如 果 两 位 用 户 共 同 评价 过 许多 物品 ， 那 么 这 种 定义 也 会 认为 他 们 紧密 相 邻 。 因 此 ， 基 于 图 
的 方法 提供 了 一 种 定义 近邻 的 不 同方 式 ， 这 种 方式 在 矩阵 稀疏 时 很 有 用 。 

结 点 间 是 否 非 直接 相连 是 通过 路 径 或 游 走 来 判定 的 。 一 些 常见 的 手段 包括 使 用 随机 游 
走 度量 或 用 2.7. 1. 2 节 中 介绍 的 Katz 度量 。 这 两 种 度量 方法 都 与 社交 网 络 分 析 ( 见 第 10 
章 10.4 节 ) 中 的 链接 预测 有 紧密 联系 ， 并 且 它 们 阐述 了 一 个 事实 : 推荐 系统 的 图 模型 将 
链接 预测 问题 和 普通 的 推荐 问题 联系 在 了 一 起 。 接 下 来 ， 我 们 讨论 在 图 模型 表示 下 定义 近 
邻 的 不 同方 法 。 

2.7.1.1 使 用 随机 游 走 定义 近邻 

一 位 用 户 的 近邻 被 定义 为 从 该 用 户 开 始 的 一 次 随机 游 走 中 频繁 遇 到 的 用 户 集 合 。 那 么 
应 该 如 何 度量 这 种 随机 游 走 中 期 望 的 频率 呢 ? 这 个 问题 的 答案 与 随机 游 走 的 方法 紧密 相 
关 ， 这 些 方 法 在 网 页 排行 应 用 中 被 频繁 使 用 。 我 们 可 以 使 用 个 性 化 的 PageRank 或 者 Sim- 
Rank 方法 〈 见 第 10 Æ) 来 确定 与 给 定 用 户 最 相似 的 & 位 用 户 来 进行 基于 用 户 的 协同 过 
滤 。 类 似 的 ， 通 过 从 给 定 的 物品 开始 随机 游 走 ， 我 们 可 以 确定 与 给 定 物品 最 相似 的 & 件 物 
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b) 给 定 评分 的 用 户 -物品 图 
图 2-3 一 个 评分 矩阵 和 对 应 的 用 户 一 物品 图 


品 。 这 一 方法 对 于 基于 物品 的 协同 过 滤 十 分 有 效 。 基 于 用 户 和 基于 物品 的 协同 过 滤 的 其 他 
步骤 保持 不 变 。 

为 什么 这 种 方法 对 于 稀疏 矩阵 更 加 有 效 ? 在 Pearson 相关 系数 的 情况 下 ， 两 位 用 户 需 
要 与 一 个 公共 的 物品 集合 直接 相连 才能 被 定义 为 近邻 。 而 在 稀疏 用 户 一 物品 图 中 ， 很 多 结 
点 可 能 都 没有 这 种 直接 相连 的 关系 。 另 一 方面 ， 随 机 游 走 也 考虑 了 非 直 接 相连 的 结 点 ， 因 
为 其 中 一 个 结 点 到 另 一 个 结 点 的 游 动 可 能 需要 多 步 。 因 此 ， 只 要 用 户 - 物 品 图 的 大 部 分 是 
连通 的 ， 就 总 是 能 够 定义 近邻 。 这 种 用 户 一 物品 图 也 可 以 通过 多 种 多 样 的 模型 来 直接 预测 
评分 。 相 关 的 方法 将 在 第 10 章 10. 2. 3. 3 节 中 讨论 。 

2.7.1.2 使 用 Katz 度量 定义 近邻 

除了 使 用 随机 游 走 一 类 的 概率 度量 方法 ,我 们 也 能 够 用 顶点 之 间 加 权 走 (walk〉 的 数目 
来 确定 它们 之 间 的 密切 程度 。 每 一 走 的 权重 是 一 个 在 (0，1) 上 的 折扣 因子 ， 该 因子 是 长 度 的 
递减 函数 。 两 点 之 间 加 权 走 的 数量 被 称 为 Katz 度量 。 两 点 之 间 加 权 走 的 数量 常 被 用 在 链接 预 
测 中 。 直 观 思 想 是 ， 如 果 两 位 用 户 属于 同一 近邻 (基于 走 的 连通 性 )， 那 么 在 用 户 一 物品 图 中 
就 倾向 于 构建 一 个 它们 的 链接 。 具 体 的 倾向 程度 通过 它们 之 间 的 〈 加 权 ) 走 的 数目 决定 。 

定义 2.7.1 (Katz 度量 ) AnP 代表 结 点 i PHA 之 间 长 度 为 上 的 走 的 数量 。 那 么 ， 
对 于 一 个 用 户 定义 的 参数 Bp 二 1， 结 点 和 j 之 间 的 Kaz 度量 定义 如 下 : 


Katz(i,j) = >) B's ng (2-34) 


t=1 
8 的 值 是 一 个 折扣 因子 ， 用 来 使 长 的 路 径 变 得 不 再 重要 。 对 于 足够 小 的 8 值 ， 公 式 (2- 34) 
将 收敛 。 
& K KR m Xm 的 用 户 对 之 间 的 Katz 系数 和 矩阵。 如 果 A 是 一 个 无 向 网 络 的 对 称 邻接 
和 矩阵， 那么 用 户 对 间 的 Katz RERE K 计算 如 下 : 


K= >; (RA) = (= pay =1 (2- 35) 
l 


8 的 值 应 该 总 小 于 4 的 最 大 特征 值 的 倒数 ， 以 确保 无 限 求 和 能 收敛 。Katz 度量 与 图 中 的 扩 
散 核 紧密 关联 。 事 实 上 ， 一 些 协同 推荐 方法 直接 使 用 扩散 核 来 进行 推荐 [205] 。 
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这 种 度量 的 加 权 版 本 可 以 通过 将 4 替换 为 图 的 带 权 矩阵 来 计算 。 当 我 们 希望 用 已 知 评 
分 为 用 户 -物品 图 中 的 边 进 行 加 权时 ， 该 方法 十 分 有 用 。 与 目标 结 点 的 Katz 度量 值 最 大 的 
前 天 个 结 点 被 定义 为 目标 结 点 的 近邻 。 一 旦 确定 了 近邻 ， 它 就 被 用 来 根据 公式 (2-4) H 
行 评分 预测 。 这 一 准则 的 很 多 变形 被 用 来 做 推荐 : 

1) 在 公式 (2- 34) 中 可 以 使 用 一 个 闪 值 来 限制 路 径 最 大 长 度 。 这 是 因为 更 长 的 路 径 
通常 使 预测 过 程 变 得 有 噪声 。 然 而， 因为 使 用 了 折扣 因子 8， 长 路 径 带 来 的 影响 通常 是 受 
到 限制 的 。 

2) 在 之 前 提 到 的 讨论 中 ，Katz 度量 仅 用 来 确定 用 户 的 近邻 。 因 此 ，Katz 度量 被 用 于 
计算 用 户 对 之 间 的 相似 程度 。 在 一 位 用 户 的 近邻 被 确定 之 后 ， 就 可 以 像 其 他 基于 近邻 的 方 
法 一 样 进行 预测 。 

然而 ， 一 种 不 使 用 近邻 方法 而 直接 预测 的 方法 是 计算 用 户 和 物品 之 间 的 相似 度 。Katz 
度量 可 以 被 用 来 计算 这 些 相似 度 。 在 这 些 情 况 中 ， 使 用 评分 对 链接 加 权 ， 然 后 问题 被 简化 
为 预测 用 户 和 物品 之 间 的 链接 。 这 些 方 法 将 在 第 10 章 10. 4. 6 节 详 细 讨论 。 

2. 9 节 包含 了 很 多 基于 路 径 的 方法 。 


2.7.2 用 户 -用 户 图 


在 用 户 一 物品 图 中 ， 用 户 间 的 联系 由 用 户 一 物品 图 中 的 偶数 跳 步 定义 。 我 们 可 以 以 用 
户 之 间 的 2 跳 步 联系 为 基础 ， 直 接 创建 用 户 一 用 户 图 ， 而 不 用 创建 用 户 一 物品 图 。 用 户 一 用 
户 图 与 用 户 一 物品 图 相 比 ， 其 边 包 含 更 多 信息 。 这 是 由 于 用 户 一 用 户 图 可 以 在 创建 边 时 参 
考 用 户 间 共同 物品 的 数量 和 相似 度 。 这 些 概念 被 称 为 horting 和 预测 性 (predictability)， 
稍 后 将 再 做 讨论 。 算 法 使 用 horting 来 量化 两 位 用 户 GEA) 之 间 共 同 评价 的 数量 ， 用 预 
测 性 来 量化 这 些 共同 评价 之 间 的 相似 度 等 级 。 

用 户 一 用 户 图 用 以 下 方法 创建 。 每 个 结 点 对 应 在 mxXn 大 小 的 用 户 一 物品 矩 阵 中 的 m 位 
用 户 之 一 。 令 I 为 用 户 做 出 评价 的 物品 集合 ，I 为 用 户 v 做 出 评价 的 物品 集合 。 图 中 的 边 
代表 horting。horting 是 用 户 之 间 的 一 种 非 对 称 关系 ， 是 基于 用 户 评价 过 的 相似 物品 而 定义 。 

定义 2.7.2 (horting) MAP u 以 等 级 (F, G) hort 用 户 w， 如 果 下 面 的 条 件 之 一 为 真 ; 

|u N 1 |>F 

(Ee N Iel liG 
XE, FAG 是 算法 的 参数 。 注 意 只 要 以 上 两 个 条 件 有 一 个 满足 ， 用 户 就 hort AP v。 
horting 用 于 进一步 定义 预测 性 。 

定义 2.7.3 (预测 性 ) 用 户 卫 预测 用 户 u, wX u hort w， 并 且 存 在 线性 变换 函数 A) 
使 得 

Dune t, a1, | re — fr) | 
[Ba Ey he id 
XE, U 是 另 一 个 算法 参数 。 值 得 注意 的 是 ， 用 户 u 的 评价 和 变形 后 的 用 户 v 的 评价 之 间 
| 

的 距离 下 是 他 们 共同 评价 的 曼哈顿 距离 的 一 种 变形 。 它 与 曼哈顿 
距离 的 主要 区 别 在 于 ， 该 距离 是 使 用 两 位 用 户 之 间 共 同 评价 的 数量 进行 归 一 化 之 后 的 结 
果 。 该 距离 也 被 称 为 曼哈顿 节 段 性 距离 (Manhattan segmental distance). 

horting 和 预测 性 的 方向 恰好 相反 。 换 句 话 说， 用 户 ， 要 预测 用 户 zx，x 必须 hort v。 
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对 有 向 图 GKH, WR vW u, W G 中 存在 由 x 向 的 边 。 该 图 被 称 为 用 户 一 用 户 预 测 
性 图 。 图 中 的 每 一 条 边 对 应 一 个 在 定义 2.7.3 中 讨论 过 的 线性 变换 。 线 性 变换 定义 了 一 种 
预测 方式 : 边 的 始点 的 评分 可 以 用 来 预测 边 的 终点 的 评分 。 更 进一步 ， 通 过 在 有 向 路 径 上 
用 传递 的 方式 使 用 线性 变换 ， 我 们 可 以 用 路 径 终点 的 评分 来 预测 路 径 的 源头 的 评分 。 

那么 ， 目 标 用 户 u 对 物品 有 的 评分 可 以 通过 计算 所 有 从 w 出 发 ， 到 所 有 已 评价 过 物品 
有 & 的 用 户 〈 结 点 ) 的 有 向 最 短路 径 得 到 。 考 虑 从 xz 出 发 ， 到 评价 过 物品 的 用 户 v 的 长 度 
Ar 的 有 向 路 径 。 令 方 … 广 为 路 径 上 的 线性 变换 序列 ， 那 么 目标 用 户 w 对 物品 & 的 评分 预 
Wr? 《只 以 二 为 基础 ) 计算 如 下 : Bu Eo 路 径 上 的 > 个 线性 映射 的 组 合 施用 于 用 户 v 
对 物品 的 评价 rx 上: 

PR = (fie forse fr) (ra) (2-36) 

预测 结果 7 含有 上 标 v， 因 为 它 只 基于 用 户 v 的 评分 。 因 此 ， 最 终 预测 结果 ru 对 所 有 评 
价 过 物品 不 并 且 与 用 户 u 的 距离 在 给 定 阐 值 D 之 内 的 用 户 v， 取 7 的 平均 值 。 

对 于 给 定 的 用 户 ( 结 点 ) u, 我们 只 需 确 定 该 用 户 到 其 他 评价 过 该 物品 的 用 户 的 有 癌 
路 径 。 最 短路 径 可 以 使 用 广度 优先 算法 计算 ， 效率 不 错 。 男 一 重要 细节 是 ， 需 要 使 用 阅 值 
来 限制 最 大 路 径 长 度 。 如 果 在 长 度 限制 D 内 找 不 到 评价 过 物品 & 的 用 户 ， 则 算法 返回 失 
败 。 换 名 话说 ， 不 能 通过 现 有 的 评分 矩阵 健壮 地 预测 用 户 u 对 物品 & 的 评分 。 使 用 这 样 的 
阅 值 对 于 提升 效率 至 关 重 要 ,并且 非常 长 的 路 径 上 的 线性 变换 可 能 增加 预测 的 偏差 。 图 2- 4 
叙述 了 整个 过 程 。 注 意 ， 在 horting 图 中 ， 如 果 w hort v, W u Ho 有 一 条 有 向 边 。 男 一 方 
面 ， 在 预测 性 图 中 ， 如 果 hort v 并 上 且 wv 预测 w， 则 ww、wv 之 间 存 在 边 。 因 此 ， 预 测 性 图 可 
以 是 通过 丢弃 horting 图 中 的 一 些 边 来 获得 的 。 这 张 图 在 离线 阶段 建立 并 且 被 重复 地 查询 
以 计算 推荐 。 另 外 ， 在 离线 阶段 还 额外 建立 了 一 些 索引 数据 结构 。 这 些 数据 结构 与 预测 性 
图 一 起 使 用 以 提高 查询 效率 。 关 于 horting 方法 的 更 多 细节 可 以 在 [33] PHF. 


评分 和 矩阵 
找 horting 边 


保留 可 预测 的 边 


a 
对 推荐 的 查询 
图 2-4 用 户 一 用 户 的 预测 性 方法 


因为 该 方法 使 用 传递 性 来 进行 预测 ， 因 此 可 以 被 用 于 极 稀 下 的 和 矩阵。 缺乏 评分 覆盖 给 
近邻 方法 带 来 极 大 的 挑战 。 例 如 ， 如 果 John 的 所 有 直接 邻居 都 没有 评价 过 《Terminator 》， 
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就 不 可 能 对 John 做 出 预测 。 但 是 结构 传导 性 允许 我 们 检查 John 的 间接 邻居 是 否 评价 过 
《Terminator》。 因 此 ， 与 竞争 方法 相 比 ， 这 种 方法 具有 更 好 的 覆盖 。 


2.7.3 物品 -物品 图 


我 们 也 可 以 利用 物品 一 物品 图 来 进行 推荐 。 这 种 图 也 被 称 为 关联 图 (correlation 
graph) [232]。 创 建 一 个 加 权 有 向 网 络 G=(N,A), N 中 每 个 结 点 对 应 一 件 物品 ，A 中 每 
一 条 边 对 应 物品 间 的 关系 。 每 条 (i，j) 边 都 有 权重 wj 。 如 果 物 品 i 和 物品 7 被 至 少 一 位 
共同 用 户 评价 过 ， 那 么 网 络 中 存在 两 条 有 向 边 ，(i,，j) 和 G, D. RW, ARA i 和 结 点 j 
之 间 不 存在 边 。 但 是 ， 因 为 边 G. j) 的 权重 与 边 (j, D 的 权重 不 一 定 相等 ， 所 以 有 向 
网 络 并 不 对 称 。 令 Ui 为 评价 过 物品 i 的 用 户 集 合 ，Uj; 为 评价 过 物品 j 的 用 户 集 合 。 那 么 边 
Gi, j) 的 权重 使 用 下 面 这 个 简单 的 算法 来 计算 。 

首先 ,我 们 将 每 条 边 的 权重 wi 初始 化 为 |Ui 几 Uj |. IEn, 边 的 权重 是 对 称 的 ， 即 
wi 二 Wij。 之 后 ， 对 边 的 权重 进行 归 一 化 ， 使 得 每 个 结 点 的 出 边 的 权重 之 和 为 1。 归 一 化 
的 方法 即 用 wj 除 以 结 点 i 的 所 有 出 边 的 权重 之 和 。 归 一 化 的 步 又 使 权重 变 得 不 对 称 ， 因 
为 wj 和 wj 分 别 除 以 了 不 同 的 量 。 这 导致 图 中 边 的 权重 与 随机 游 走 概率 相对 应 。 图 2- 5 说 
明了 评分 矩阵 的 关联 图 的 一 个 例子 。 显 然 归 一 化 的 关联 图 中 的 权重 是 非 对称 的 ， 因 为 权重 
已 被 缩放 到 转移 概率 。 更 进一步 ， 值 得 注意 的 是 ,在 构建 关联 图 时 ， 评 分 的 值 未 被 使 用 。 
只 使 用 了 物品 间 已 知 的 共同 评分 的 数量 。 有 时 候 这 并 不 是 我 们 所 和 希望 的 。 当 然 ， 我 们 也 可 
以 用 其 他 方式 定义 关联 图 ， 比 如 使 用 两 件 物品 之 间 评 分 向 量 的 余弦 函数 。 


Gladiator 
Godfather 





b) 未 归 一 化 的 关联 图 c) 归 一 化 的 关联 图 
图 2-5 一 个 评分 矩阵 和 它 的 关联 图 
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如 第 10 章 所 说 ， 随 机 游 走 算法 可 以 用 来 确定 给 定 物品 的 近邻 。 计 算出 的 近邻 可 以 用 
于 基于 物品 的 协同 过 滤 算 法 ， 而 且 可 以 用 个 性 化 的 PageRank 算法 直接 确定 物品 -物品 图 
中 的 评分 。 这 种 方法 被 称 为 ItemRank， 它 在 第 10 章 10. 2. 3. 3 节 中 讨论 。 


2.8 小 结 


由 于 协同 过 滤 可 以 被 看 作 是 分 类 和 回归 问题 的 泛 化 ， 因 此 适用 于 后 者 的 方法 也 可 以 适 
用 于 前 者 。 基 于 近邻 的 方法 从 最 近邻 分 类 和 回归 方法 中 汲取 灵感 。 在 基于 用 户 的 方法 中 ， 
第 一 步 是 确定 目标 用 户 的 近邻 。 为 了 计算 相 邻 项 ， 很 多 相似 度 函 数 ， 比 如 Pearson 相关 系 
数 和 余弦 函数 被 使 用 。 近 邻 被 用 来 推断 未 知 评分 。 在 基于 物品 的 方法 中 ， 对 于 目标 物品 ， 
与 其 最 相似 的 物品 被 计算 出 来 。 然 后 ， 用 户 自己 对 这 些 相似 物品 的 评分 被 用 来 预测 该 目标 
物品 的 评分 。 基 于 物品 的 方法 能 够 产生 相关 性 更 高 的 推荐 ， 但 是 它们 难以 产生 多 样 化 的 推 
荐 。 为 了 加 速 基于 近邻 的 方法 ， 通 常 使 用 聚 类 。 

基于 近邻 的 方法 可 以 被 看 作 是 线性 模型 ， 其 中 权重 是 使 用 一 种 基于 相似 度 值 的 启发 式 
方法 来 选择 的 。 我 们 也 可 以 使 用 线性 回归 模型 学 习 这 些 权 重 。 这 种 方法 具有 能 够 与 其 他 最 
优化 模型 ， 比 如 和 矩阵 分 解 ， 相 结合 以 产生 更 好 预测 结果 的 优势 。 这 类 方法 将 在 下 一 章 中 
讨论 。 

由 于 数据 的 稀疏 性 ， 基 于 近邻 的 方法 面临 许多 挑战 。 用 户 通常 只 对 一 小 部 分 物品 做 出 
评分 。 因 此 一 对 用 户 可 能 常常 只 做 出 了 一 小 部 分 评分 。 这 种 情况 可 以 通过 使 用 降 维和 基于 
图 的 模型 来 有 效 地 处 理 。 虽然 降 维 方法 通常 作为 一 种 协同 过 滤 中 独立 的 方法 使 用 ,但 是 它 
们 也 能 够 与 基于 近邻 的 方法 结合 ， 来 提高 协同 过 滤 的 效率 和 准确 度 。 很 多 类 型 的 图 模型 能 
够 从 评分 矩阵 中 抽象 出 来 ， 比 如 用 户 -物品 图 、 用 户 -用 户 图 和 物品 -物品 图 。 典 型 地 ， 随 
机 游 走 或 最 短路 径 法 被 用 于 这 些 例子 中 。 


2.9 相关 工作 


在 推荐 系统 领域 中 ， 基 于 近邻 的 方法 是 最 早 使 用 的 方法 之 一 。 最 早 的 基于 用 户 的 协同 
过 滤 模 型 在 (33, 98, 510, 540] 中 研究 。 在 [183] 中 能 找到 关于 基于 近邻 的 推荐 系统 
的 综述 。 稀 玻 性 是 这 种 系统 面临 的 主要 问题 ，[33，204，647】] 设计 了 很 多 基于 图 的 系统 
来 缓解 稀 朴 性 带 来 的 问题 。 在 [173，463，648] 中 讨论 了 专门 针对 长 尾 而 设计 的 推荐 
FTE. 

基于 用 户 的 方法 利用 相似 用 户 在 相同 物品 的 评分 来 做 预测 。 这 类 方法 早期 很 流行 ， 但 
它们 的 扩展 性 不 好 而 且 有 时 不 够 准确 。 逐 渐 的 ， 基 于 物品 的 方法 D31360'524] 被 提出 ， 该 方 
法 通过 相同 用 户 在 相似 物品 上 的 评分 来 计算 评分 预测 。 基 于 物品 的 方法 提供 了 更 准确 但 不 
够 多 样 性 的 推荐 。 

[98，501] 提出 了 使 用 均值 中 心 化 来 改进 推荐 算法 。[245，258] 中 对 比 了 ZAM 
均值 中 心 化 ， 但 这 两 项 研究 的 结果 有 冲突 。[163，281，282] 中 讨论 了 许多 不 使 用 绝对 评 
分 ， 而 专注 于 基于 偏好 权重 的 评分 的 排序 。L71，245，247，380] 中 讨论 基于 显著 性 加 权 
方法 ， 在 该 类 方法 中 削弱 了 与 给 定 邻 居 的 共同 评分 过 少 的 邻居 的 重要 性 。 许 多 相似 度 函 数 
的 变形 被 用 于 计算 近邻 。 例 如 ， 最 小 方差 距离 (mean-squared distance)!**°] 和 Spearman 排名 
相关 (Spearman rank correlation)[289] 。 这 些 距 离 度量 方法 的 具体 优势 尚 不 明确 ， 因 为 文献 
[247, 258] 中 给 出 了 冲突 的 结果 。 但 是 ， 共 识 倾向 于 认为 Pearson 等 级 相关 能 给 出 最 准确 的 
结果 [2 。[98，280] 中 讨论 了 如 何 调整 很 受 欢 迎 的 物品 的 影响 度 的 技术 。 在 [98] 中 讨论 


RFE RH MALE 51 





了 在 基于 近邻 方法 中 使 用 指数 扩 增 技术 。[183] 中 介绍 了 在 最 近邻 方法 中 使 用 投票 技术 。 投 
票 方法 可 以 被 看 作 最 近邻 方法 的 直接 衍生 ， 而 不 是 最 近邻 回归 模型 的 衍生 。 

[181, 524, 526] 中 提出 了 基于 物品 的 协同 过 滤 方 法 。[526] 中 探讨 了 基于 物品 的 协 
同 过 滤 的 不 同 变形 ， 和 基于 用 户 的 方法 的 对 比 。[L360] 中 的 基于 物品 的 方法 值得 注意 ， 因 
为 它 描 述 了 Amazon. com 使 用 的 一 种 协同 过 滤 方 法 。 也 可 以 使 用 相似 度 融 合 技术 [2 将 基 
于 用 户 和 基于 物品 的 协同 过 滤 方 法 联合 起 来 。 更 一 般 的 联合 框架 能 在 [613] PRE. R 
类 方法 被 频繁 地 用 于 提高 基于 近邻 的 协同 过 滤 方 法 的 效率 。 在 [146，167，528，643， 
644, 647] 中 讨论 了 很 多 聚 类 方法 。[51] 中 研究 了 将 基于 近邻 的 方法 扩展 到 大 规模 数据 
RE. 

降 维 方法 用 于 缺失 值 估计 C24"472] 和 推荐 系统 [71,72,228,252,309,313,500,517,5251 的 历史 已 久 。 
事实 上 ， 这 些 方法 中 有 很 多 直接 使 用 潜在 因子 模型 来 预测 评分 而 不 依赖 于 近邻 模型 。 但 是 ， 
有 一 些 降 维 方法 "1.72,309,525] 是 专 为 提升 基于 近邻 方法 的 效率 和 准确 度 而 设计 的 。[72] 的 一 
个 重要 贡献 就 是 提供 了 近邻 方法 和 回归 建 模 的 联系 。 这 一 关系 很 重要 ， 因 为 它 揭示 了 我 们 
如 何 使 用 脆 优 化 将 基于 近邻 的 方法 构建 成 基于 模型 的 方法 。 注 意 许多 其 他 的 基于 模型 的 方 
法 ， 如 洪 在 因子 模型 ， 也 能 够 被 表达 成 最 优化 问题 。 这 一 观察 为 将 基于 近邻 方法 和 潜在 因 
子 模型 有 效 结合 成 统一 的 框架 扫除 了 障碍 5%] ， 因 为 我 们 现在 可 将 两 个 目标 函数 结合 
来 。 其 他 基于 回归 模型 的 推荐 系统 ， 如 slope one 预测 方法 和 最 小 二 乘法 在 [342, 620] 
中 被 提出 。 [469] 中 探讨 了 对 物品 集合 偏好 的 学 习 方 法 。 [455] 研究 了 稀疏 线性 模型 
(Sparse LInear Model, SLIM) 下 的 物品 -物品 回归 模型 ， 在 该 线性 模型 上 使 用 了 弹性 网 
络 规则 化 方法 ， 不 必 将 系数 限制 在 物品 的 近邻 上 。[L159] 中 讨论 了 高 阶 稀 朴 学 习 方法 ， 该 
方法 对 多 个 物品 的 组 合 构建 影响 模型 。 训 练 线性 模型 和 微调 规则 化 参数 的 高 效 方法 在 
[347] 中 讨论 。 受 限 线性 回归 模型 在 [430] 中 讨论 。 

[669] 对 如 最 小 二 乘 回归 和 支持 向 量 机 这 类 的 线性 分 类 器 进行 了 验证 。 但 是 ， 这 类 方 
法 是 针对 隐 式 反馈 数据 集合 设计 的 ， 这 些 数 据 中 只 有 积极 偏好 。 根 据 观 察 ， 在 这 种 情况 
下 ,协同 过 滤 和 文本 分 类 是 类 似 的。 不 过 ， 由 于 数据 中 的 噪声 和 类 型 分 布 天 然 的 不 平衡 ， 
直接 使 用 SVM 方法 有 时 是 无 效 的 。[669]j 中 建议 修改 损失 函数 以 得 到 更 加 准确 的 结果 。 

为 了 改进 协同 过 滤 算 法 ， 很 多 基于 图 的 方法 被 提出 了 。 这 些 方法 中 的 大 部 分 是 基于 用 
户 一 物品 图 ， 但 也 有 小 部 分 是 基于 用 户 一 用 户 图 的 。 一 个 从 基于 图 方法 的 角度 的 重要 发 现 
是 ， 它 们 展现 出 了 排序 、 推 荐 和 链接 预测 之 间 的 有 趣 关 系 。[204，647」]」 中 讨论 了 在 推荐 
系统 中 使 用 随机 游 走 来 确定 近邻 。L262」 提出 了 一 种 使 用 用 户 一 物品 图 中 结 点 对 之 间 的 折 
扣 路 径 数 来 进行 推荐 的 方法 。 这 一 方法 与 在 用 户 - 用 户 对 上 使 用 Katz 度量 来 确定 它们 是 否 
在 对 方 的 近邻 中 是 等 价 的 。 该 方法 与 链接 预测 5 相关， 因为 Katz 度量 常用 于 确定 结 点 对 
之 间 的 链接 亲和力 。 在 [17] 中 能 找到 一 项 关于 链接 预测 的 调查 。 一 些 基 于 图 的 方法 不 直 
接 使 用 近邻 。 例 如 ，[232] 中 提出 的 ItemRank 方法 展示 了 如 何 直接 使 用 排序 来 进行 预测 ， 
[261] 中 的 方法 展示 了 如 何 直接 使 用 链接 预测 方法 来 进行 协同 过 滤 。 这 些 方法 也 在 本 书 第 
10 章 中 讨论 。 利 用 用 户 一 用 户 图 的 方法 在 [33] 中 讨论 。 这 些 方法 的 优势 在 于 它们 在 图 的 
边 中 直接 表达 了 用 户 - 用 户 相似 度 关系 。 因 此 ， 这 类 方法 提供 了 比 竞争 方法 更 高 的 覆盖 率 。 


2.10 习题 


1. 考虑 表 2-1 中 的 评分 和 矩阵。 预测 用 户 2 对 物品 3 的 绝对 评分 ， 使 用 以 下 方法 : 
(a) 基于 用 户 的 协同 过 滤 算 法 ， 使 用 Pearson 系数 和 均值 中 心 化 。 
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(b) 基于 物品 的 协同 过 滤 算 法 ， 使 用 调整 的 余弦 相似 度 。 


. 考虑 下 面 5 位 用 户 和 6 件 物品 之 间 的 评分 表 : 




















(a) 使 用 基于 用 户 的 协同 过 滤 算 法 预测 用 户 2 的 未 知 评分 。 要 求 使 用 Pearson 系数 和 均值 中 心 化 。 
Ch) 使 用 基于 物品 的 协同 过 滤 算 法 预测 用 户 2 的 未 知 评分 。 要 求 使 用 调整 的 余弦 相似 度 。 
假设 在 每 例 中 ， 同 组 群体 的 规模 最 大 为 2， 并 且 负 关联 已 被 除去 。 


. 讨论 传统 机 器 学 习 中 的 最 近邻 分 类 器 和 基于 用 户 的 协同 过 滤 算 法 之 间 的 相似 性 。 描 述 一 个 与 基于 物 


品 的 协同 过 滤 相 似 的 分 类 器 。 


: 设计 一 个 基于 用 户 的 评分 矩阵 对 用 户 的 聚 类 算法 ， 将 每 一 类 的 平均 评分 输出 ， 作 为 该 类 中 所 有 用 户 对 


物品 的 评分 预测 。 与 近邻 模型 相 比 ， 讨 论 其 有 效 性 和 效率 上 的 权衡 。 


. 设计 一 种 在 用 户 一 用 户 图 上 使 用 随机 游 走 的 基于 近邻 的 协同 过 滤 的 算法 。 [解决 该 问题 需要 了 解 排序 算 


法 的 背景 知识 。] 

讨论 利用 图 聚 类 算法 来 实现 基于 近邻 的 协同 过 滤 算 法 的 多 种 方式 。 

实现 基于 用 户 和 基于 物品 的 协同 过 滤 算 法 。 

假设 你 拥有 基于 内 容 的 用 户 画 像 ， 展 示 着 他 们 的 兴趣 所 在 ， 也 有 物品 的 简要 描 ` 述 。 同 时 你 还 有 用 户 和 
物品 之 间 的 评分 矩阵 。 讨 论 怎 样 能 在 基于 图 的 算法 框架 中 使 用 这 些 基于 内 容 的 信息 。 

假设 你 有 一 个 一 元 评分 和 矩阵。 如 果 将 物品 的 评分 看 作 其 特性 ， 展 示 如 何 使 用 基于 内 容 的 方法 来 实现 协 
同 过 滤 算法 。 参 考 第 1 章 对 基于 内 容 方法 的 描述 。 基 于 物品 的 协同 过 滤 算 法 对 应 于 哪 种 基于 内 容 的 分 
类 器 ? 
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Vincent van Gogh 


3.1 引言 


上 一 章 提 到 的 基于 近邻 的 协同 过 滤 方 法 可 以 被 看 作 是 机 器 学 习 中 常用 的 入 近邻 分 类 方 
法 的 泛 化 ， 它 们 都 是 基于 案例 的 方法 。 这 些 方法 必须 是 高 效 的 ， 因 为 除了 一 些 可 选 的 预 处 
理 环节 9 ， 我 们 不 会 预先 建立 模型 以 用 于 预测 。 基 于 近邻 的 方法 是 基于 案例 的 学 习 方 法 或 
懒惰 学 习 的 泛 化 ， 其 预测 方法 针对 实例 的 预测 。 例 如 ， 在 基于 用 户 的 近邻 方法 中 ， 要 确定 
等 价 的 目标 用 户 群 体 才能 实施 预测 。 

与 有 监督 及 无 监督 的 机 器 学 习 类 似 ， 在 基于 模型 的 方法 中 会 预先 建立 一 个 总 结 模型 。 
因此 ， 训 练 (也 称 为 模型 建立 ) 过 程 被 明确 地 同 预测 过 程 分 离开 来 。 传 统 机 器 学 习 中 ,此 
类 典型 方法 有 决策 树 、 基 于 规则 的 方法 、 贝 叶 斯 分 类 器 、 回 归 模 型 、 支 持 向 量 机 以 及 神经 
网 络 [22] 。 有 趣 的 是 ， 几 乎 所 有 的 此 类 模型 都 可 以 被 泛 化 为 协同 过 滤 场 景 ， 就 如 同 大 近邻 
可 以 被 泛 化 为 基于 近邻 的 协同 过 滤 模 型 一 样 。 这 是 因为 传统 的 分 类 和 回归 问题 恰好 是 矩阵 
补 全 (或 协同 过 滤 ) 的 特例 。 

在 数据 分 类 问题 中 ,我 们 有 一 个 mXn HEM, PRT (n 一 1) 列 是 特征 变量 (或 称 
A), BaF (BUS nF) 为 类 变量 (或 称 因 变量 )。 前 (n 一 1) 列 的 值 均 为 已 知 ， 
但 第 n 列 的 值 只 有 部 分 已 知 。 因 此 ， 和 矩阵 的 行 构成 的 集合 的 某 个 子 集 的 值 均 是 已 知 的 ， 该 
子 集 被 称 为 训练 数据 ， 其 余 包 含 未 知 值 的 行 被 称 为 测试 数据 。 对 于 测试 数据 来 说 ,需要 填 
充 其 缺 失 值 。 图 3-1a 给 出 了 上 述 情况 的 一 个 例子 ， 其 中 灰色 部 分 表示 矩阵 中 的 未 知 项 。 

如 图 3-1b 所 示 ， 与 数据 分 类 问题 不 同 ， 评 分 矩阵 中 的 任何 项 都 可 能 是 未 知 的 。 因 此 ， 
可 以 明显 看 出 矩阵 补 全 问题 是 分 类 问题 〈 或 回归 问题 ) 的 泛 化 。 这 两 类 问题 最 本 质 的 不 同 
可 以 被 总 结 如 下 : 

D 在 数据 分 类 问题 中 ， 特 征 〈 自 ) 变量 和 类 CA) 变量 之 间 的 界限 很 清楚 ， 而 在 拢 
阵 补 全 问题 中 ， 并 不 存在 明显 的 界限 。 每 一 列 都 既是 因 变 量 又 是 自 变量 ， 取 决 于 当前 预测 
模型 要 预测 的 项 是 什么 。 

2) 在 数据 分 类 问题 中 ， 训 练 数据 和 测试 数据 之 间 有 清楚 的 界限 ， 而 在 矩阵 补 全 问题 
中 ， 不 同 的 行 之 间 并 不 存在 上 述 界限 。 人 们 最 多 能 将 已 知 项 当 作 训练 数据 ， 而 将 未 知 项 当 
作 测 试 数据 。 

3) 在 数据 分 类 问题 中 ， 列 表示 特征 ， 行 表示 数据 实例 。 但 在 协同 过 滤 问 题 中 ， 根 据 
未 知 项 的 分 布 规律 ， 一 种 方法 可 能 同时 适用 于 一 个 评分 矩阵 及 其 转 置 。 例 如 ， 基 于 用 户 的 
近邻 模型 可 以 被 看 作 最 近邻 分 类 方法 的 直接 泛 化 。 当 此 类 方法 被 用 在 评分 矩阵 的 转 置 上 的 


加 ”从 实践 的 角度 来 讲 ， 预 处 理 就 是 为 了 提高 效率 。 用 户 完全 可 以 使 用 不 含 预 处 理 阶段 的 基于 近邻 的 方法 ， 不 过 
那 会 导致 更 长 的 查询 响应 时 间 。 





T] 
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时 候 ， 可 以 将 其 看 作 是 基于 物品 的 近邻 模型 。 一 般 而 言 ， 许 多 协同 过 滤 算 法 既 可 以 从 用 户 
角度 来 使 用 ， 又 可 以 从 物品 角度 来 使 用 。 

3-1 总 结 了 数据 分 类 和 协同 过 滤 问 题 的 不 同 。 因 为 协同 过 滤 问 题 的 泛 化 程度 更 高 ， 
所 以 与 数据 分 类 问题 相 比 ， 其 在 算法 设计 方面 也 展现 了 更 丰富 的 可 能 性 。 





一 一 一 一 一 | er eee 
自 变量 因 变 量 自 变量 和 因 变量 没 有 分 界 
a) 分 类 b) 协同 过 滤 
图 3-1 回顾 第 1 章 的 图 1-4。 比 较 传统 的 分 类 问题 和 协同 过 滤 ， 阴 影 部 分 表示 需要 被 预测 
的 未 知 项 


考虑 协同 过 滤 问 题 和 数据 分 类 问题 的 相似 之 处 有 助 于 设计 前 者 的 学 习 算法 。 这 是 因为 
数据 分 类 相对 来 说 是 研究 更 成 熟 的 领域 ， 不 同 种 类 的 分 类 算法 能 够 为 协同 过 滤 算 法 的 设计 
提供 重要 思路 。 事 实 上 ， 大 多 数 机 器 学 习 和 分 类 算法 本 身 就 是 协同 过 滤 的 一 个 分 支 。 从 与 
分 类 模型 类 似 的 角度 去 理解 推荐 系统 ， 就 可 以 更 好 地 应 用 大 量 的 分 类 问题 的 元 算法 me- 
ta-algorithm)。 例 如 ， 分 类 问题 中 一 些 经 典 的 元 算法 ， 如 引导 聚集 算法 (bagging), EI 
方法 (boosting) 或 模型 组 合 ， 可 以 被 扩展 为 协同 过 滤 算 法 。 有 趣 的 是 ， 分 类 问题 中 的 很 
多 集成 方法 的 理论 被 延续 使 用 在 推荐 系统 中 。 基 于 集成 的 方法 5 7 史 是 在 Netflix 的 比赛 
中 表现 最 好 的 方法 之 一 。 我 们 将 在 第 6 章 讨 论 这 些 集成 方法 。 

然而 ， 想 要 直接 对 数据 分 类 模型 泛 化 来 解决 矩阵 补 全 问题 并 不 容易 ， 尤 其 是 当 矩 阵 中 
的 大 部 分 元 素 未 知 时 。 而 且 ， 不 同 模型 在 不 同 的 设置 下 效果 也 不 相同 。 例 如 ， 很 多 最 新 的 
协同 过 滤 模 型 ， 如 潜在 因子 模型 ， 对 于 解决 协同 过 滤 问 题 非常 有 效 ， 但 并 不 被 认为 是 解决 
数据 分 类 问题 的 有 效 模型 。 

基于 模型 的 推荐 系统 很 多 情况 下 优 于 基于 近邻 的 推荐 系统 : 

D 节省 空间 : 一 般 情况 下 ， 学 习 得 到 的 模型 的 大 小 远 小 于 原始 的 评分 矩阵 ， 所 以 空 
间 需 求 通常 较 低 。 另 一 方面 ， 基 于 用 户 的 近邻 算法 可 能 需要 Om) 的 空间 复杂 度 ， 其 中 
m 是 用 户 数目 。 基 于 物品 的 近邻 算法 则 需要 OC?) 的 空间 复杂 度 。 

2) 训练 和 预测 速度 快 : 基于 近邻 的 方法 的 一 个 问题 在 于 预 处 理 环节 需要 用 户 数 或 物 
品 数 的 平方 级 别 时 间 ， 而 基于 模型 的 系统 在 建立 训练 模型 的 预 处 理 环节 需要 的 时 间 往 往 要 
少 得 多 。 在 大 多 数 情况 下 ， 压 缩 和 总 结 模型 可 以 被 用 来 加 快 预测 。 

3) 避免 过 拟 合 : 过 拟 合 在 很 多 机 器 学 习 算 法 中 是 非常 严重 的 问题 。 在 这 些 算法 中 预 
测 结果 往往 被 一 些 随 机 因素 影响 。 此 类 问题 在 分 类 和 回归 模型 中 同样 存在 。 在 基于 模型 的 
方法 中 ， 运 用 总 结 方法 有 助 于 避免 过 拟 合 。 除 此 之 外 ， 还 可 以 运用 正则 化 方法 使 得 这 些 模 
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型 更 具 健壮 性 。 

虽然 基于 近邻 的 方法 是 最 早 被 提出 的 协同 过 滤 方 法 之 一 ， 且 由 于 其 简洁 性 被 应 用 得 非 
常 广泛 ， 但 就 目前 的 情况 而 言 ， 它 们 并 非 总 是 最 精确 的 方法 。 事 实 上 ， 通 常 最 精确 的 协同 
过 滤 方 法 都 是 基于 模型 的 ， 尤 其 是 潜在 因子 模型 。 

本 章 后 续 部 分 组 织 如 下 。3.2 节 讨 论 如 何在 推荐 系统 中 运用 决策 和 回归 树 。3. 3 节 讨 
论 基 于 规则 的 协同 过 滤 方 法 。3. 4 节 讨 论 基于 朴素 贝 叶 斯 的 推荐 系统 。3. 5 节 讨 论 其 他 分 
类 方法 是 如 何 被 扩展 为 协同 过 滤 算 法 的 。3. 6 节 讨 论 潜在 因子 模型 。3.7 节 讨 论 如 何 集成 
潜在 因子 模型 和 近邻 模型 。3. 8 TRASH. 


3.2 决策 和 回归 树 


决策 和 回归 树 经 常 被 用 在 数据 分 类 中 。 决 策 树 一 般 用 于 因 变 量 是 类 别 的 情况 ， 回 归 树 
则 用 于 因 变 量 是 数值 的 情况 。 在 介绍 如 何 将 决策 树 泛 化 为 协同 过 滤 之 前 ， 我 们 先 对 其 如 何 
应 用 于 分 类 问题 做 一 讨论 。 

考虑 一 个 mXn 的 矩阵 R。 不 失 一 般 性 的 ,假设 前 (n 一 1) 列 是 自 变量 ， 最 后 一 列 是 
因 变量 。 为 了 方便 讨论 ,我们 假设 所 有 的 变量 都 是 二 元 的 。 因 此 ， 我 们 现在 将 讨论 决策 树 
而 非 回归 树 。 在 之 后 的 讨论 中 我 们 会 进一步 描述 如 何 泛 化 其 他 类 型 的 变量 。 

决策 树 可 以 被 看 作 是 一 个 划分 了 层次 的 数据 空间 ， 划 分 使 用 层次 决策 ， 这 在 自 变量 中 
被 称 为 拆 分 条 件 (split criteria) 。 在 单 变量 的 决策 树 中 ， 每 一 层 使 用 唯一 特征 进行 划分 。 
例如 ， 在 一 个 二 元 (特征 变量 的 值 为 0 或 1) 的 矩阵 尺 中 ， 对 于 一 个 精心 挑选 过 的 特征 变 
E, 我 们 将 所 有 该 变量 取 值 为 0 的 数据 记录 划分 为 一 枝 ， 将 该 变量 取 值 为 1 的 记录 都 划分 
到 另 一 枝 。 不 断 选取 与 分 类 变量 相关 的 特征 并 重复 上 述 过程 ， 则 每 一 枝 对 应 的 记录 集合 的 
纯度 会 越 来 越 高。 换言之 ， 大 多 数 属 于 不 同类 别 的 记录 会 被 分 离 到 不 同 的 分 枝 。 又 或 者 
说 ， 两 个 分 枝 中 其 中 一 个 包含 了 大 部 分 属于 某 个 类 别 的 数据 记录 ， 而 另 一 枝 则 包含 大 多 数 
属于 男 一 类 别 的 数据 记录 。 如 果 决 策 树 中 每 个 结 点 有 两 个 子 结 点 ， 则 该 决策 树 被 称 为 二 元 
决策 树 。 

可 以 使 用 划分 后 孩子 结 点 的 加 权 平 均 基 尼 指 数 来 度量 划分 的 质量 。 设 pi1…p; 分 别 是 
结 点 S 包含 的 ~ 个 不 同类 别 的 数据 记录 所 占 的 比例 ， 则 结 点 S 的 基尼 指数 G(S) 定义 
如 下 : 


G(S) = 1— Xp (3-1) 


i=1 
基尼 指数 位 于 LO, 1] 区间， 数字 越 小 说 明 区 分 度 越 大 。 一 次 划分 的 整体 基尼 指数 等 于 划 
分 得 到 的 孩子 结 点 的 基尼 指数 的 加 权 平 均 。 这 里 ， 权 值 被 定义 为 孩子 结 点 包含 的 数据 量 。 
因此 ， 如 果 S 和 S$* 是 结 点 $ 在 二 元 决策 树 中 的 孩子 结 点 ，ma 和 也 分 别 是 Si 和 Soa Wid 
录 数 ， 则 划分 S (Si，Sz) 的 基尼 指数 可 以 如 下 计算 ， 
ni * G(S;) nz + GCS2) 
nı + ne 

基尼 指数 可 用 来 对 决策 树 的 给 定 层 次 确定 合适 的 划分 属性 。 我 们 可 以 根据 公式 (3- 2) 
来 测试 每 一 个 属性 的 划分 质量 ， 并 选择 基尼 指数 最 小 的 属性 来 进行 划分 。 这 个 过 程 从 高 到 
低 按 层次 进行 ， 直 到 每 个 结 点 仅 包含 同一 个 类 别 的 数据 记录 为 止 。 如 果 一 个 结 点 包含 了 最 
少 比 例 的 特定 类 别 的 记录 ， 上 述 过 程 也 可 以 提前 终止 。 不 被 进一步 划分 的 结 点 称 为 叶 结 
点 ， 该 结 点 的 标签 即 为 其 包含 的 数据 记录 中 占 支 配 地 位 的 类 别 。 为 了 对 测试 数据 中 一 个 未 


Gini(S > [S;,S2]) = (3-2) 
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知 的 因 变 量 进行 分 类 ， 需 要 将 其 对 应 的 自 变 量 与 决策 树 中 从 根 结 点 到 叶 结 点 的 一 条 路 径 匹 
配 。 因 为 决策 树 是 层次 地 去 划分 数据 空间 ， 所 以 测试 数据 会 恰好 匹配 一 条 从 根 结 点 到 叶 结 
点 的 路 径 ， 叶 结 点 对 应 的 标签 即 是 测试 数据 的 类 别 。 图 3- 2 给 出 了 一 棵 由 4 个 二 元 属性 划 
分 得 到 的 决策 树 。 图 中 灰色 的 结 点 为 树 的 叶 结 点 。 注 意 并 非 所 有 的 属性 都 必须 用 来 在 决策 
树 上 做 划分 。 例 如 ， 最 左边 的 路 径 用 到 了 属性 1 和 2， 但 没有 用 到 属性 3 和 4。 而 且 决 策 
树 上 不 同 的 路 径 可 能 会 用 到 不 同 的 属性 序列 。 这 种 情况 在 处 理 高 维 数据 时 非常 常见 。 例 如 
当 测 试 数据 为 A=0010 和 B=0110 时 ， 图 3-2 中 指出 了 二 者 对 应 的 叶 结 点 位 置 。 层 次 划 
分 数据 使 得 每 个 测试 数据 都 唯一 匹配 了 一 个 叶 结 点 。 





en 
测试 数据 8=| 0 | 


ee 具有 4 个 二 元 属性 的 决策 树 示 例 


经 过 少量 修改 ， 上 述 方法 可 以 被 扩展 到 数值 型 的 因 变量 和 自 变量 上 。 为 了 处 理 数 值 型 
的 自 变 量 〈 特 征 )， 属 性 值 域 可 以 被 划分 为 不 同 的 区 间 (注意 随 着 每 一 个 分 支 对 应 的 区 间 
不 同 ， 上 述 方法 可 能 会 导致 多 种 划分 方式 )， 进 而 可 以 基于 基尼 指数 选择 属性 进行 划分 。 
类 似 的 修改 可 以 被 用 来 支持 类 别 型 的 变量 ， 其 中 每 个 分 支 对 应 一 个 类 别 。 

为 了 处 理 数值 型 的 因 变量 ， 划 分 标准 可 以 从 基尼 指数 变 为 一 个 更 为 适用 的 度量 。 确 切 
地 说 ， 我 们 使 用 数值 型 因 变 量 的 方差 来 代替 基尼 指数 。 方 差 越 低 越 好 ， 这 是 因为 低 方差 表 
示 绪 点 包含 的 训练 数据 根据 因 变量 的 取 值 区 间 被 有 区 别 地 对 待 了 。 在 预测 时 ,可 以 使 用 叶 
结 点 对 应 的 均值 或 线性 回归 模型 [22] 。 

在 许多 情况 下 ， 为 了 防止 过 拟 合 ， 决 策 树 会 被 剪 枝 。 此 时 ， 一 些 训练 数据 在 构建 决策 
树 时 不 会 被 用 到 。 剪 枝 之 后 ， 再 使 用 这 些 未 被 用 到 的 数据 去 检查 修剪 的 效果 。 如 果 某 个 结 
点 被 删 掉 会 提升 未 使 用 数据 的 分 类 精度 ， 那 么 该 结 点 就 会 被 删除 。 除 此 之 外 ， 其 他 分 类 指 
标的 变种 CNFRTR AE A) 也 被 广泛 使 用 。 文 献 (18, 22] 给 出 了 不 同 决策 树 的 设计 方法 
细节 。 


3.2.1 将 决策 树 扩 展 到 协同 过 滤 
将 决策 树 扩展 到 协同 过 滤 需 要 面临 的 主要 挑战 是 需要 预测 的 项 并 没有 和 已 知 项 明确 地 


HF HE A! hh th ait 2B 57 








AN RADA K, A— AM SAEMABE TAT. AE. PES AREER. ARE 
多 数 的 项 是 未 知 的 。 这 些 原因 使 得 在 建立 决策 树 时 对 训练 数据 进行 层次 划分 面临 着 极 大 挑 
战 。 其 次 ， 既 然 协同 过 滤 中 自 变量 和 因 变 量 (项 ) 没有 清晰 的 分 界 ， 如 何 知 道 决策 树 要 预 
测 哪些 项 呢 ? 

后 一 个 不 同 点 可 以 通过 对 每 个 需要 预测 的 物品 分 别 建立 决策 树 来 解决 。 考 虑 一 个 mXn 
的 评分 矩阵 R， 其 中 m 是 用 户 的 数目 ,n 是 物品 的 数目 。 对 于 任意 一 个 属性 (物品 )， 我 
们 需要 将 其 余 的 变量 当 作 自 变量 ， 建 立 一 棵 独立 的 决策 树 。 因 此 ， 决 策 树 的 数目 等 于 属性 
(物品 〉 的 数目 n。 当 预测 某 个 用 户 对 于 给 定 物 品 的 评分 时 ， 我 们 只 需 使 用 与 待 预 测 物品 对 
应 的 决策 树 即 可 。 

另 一 方面 ， 如 何 处 理 缺 失 的 重要 特征 相对 来 说 是 一 个 更 难 的 问题 。 考 虑 下 述 情况 : 一 
个 给 定 的 物品 〈 例 如 某 个 特定 的 电影 ) 被 用 作 划 分 属性 ， 所 有 对 该 电影 评分 低 于 阔 值 的 用 
户 被 分 在 一 个 分 支 ， 对 该 电影 评分 高 于 效 值 的 用 户 被 分 在 另 一 个 分 支 。 由 于 评分 矩阵 是 稀 
下 的 ， 大 多 数 用 户 对 于 该 物品 没有 评分 ， 那 么 这 些 用 户 应 该 被 分 在 哪个 分 支 呢 ? 从 逻辑 上 


说 ,这 些 用 户 应 该 在 两 个 分 支 里 都 出 现 。 然 而 ， 如 果 这 样 操作 ， 决 策 树 将 不 再 是 对 训练 数 


据 的 严格 划分 。 而 且 ， 根 据 上 述 方法 ,测试 数 据 可 能 匹配 决策 树 上 的 多 条 路 径 ， 进 而 会 导 
致 我 们 需要 将 多 个 冲突 的 预测 结果 合并 以 得 到 最 终 的 唯一 预测 。 

男 一 个 (也 是 更 合理 的 ) 想法 是 使 用 第 2 章 的 2. 5. 1. 1 节 讨 论 的 降 维 方法 建立 一 个 低 
维 的 数据 表示 。 现 在 假设 我 们 想 预 测 第 7 个 物品 的 评分 。 首 先 ， 除 去 第 7 列 之 外 的 m X 
(n 一 1) 的 评分 矩阵 被 转化 为 一 个 低 维 的 痉 X& 的 表示 ， 其 中 dn 一 1， 且 所 有 属性 是 已 知 
的 。mX(n 一 1) 的 评分 矩阵 中 每 一 对 项 的 协 方差 可 以 通过 第 2 章 的 2.5.1.1 节 的 方法 佑 
计 。 可 以 确定 (n 一 1)X(n 一 1) 大 小 的 协 方 差 矩 阵 中 前 a 个 特征 向 量 红 … 妈 ， 每 个 特征 向 
量 包含 (n 一 1) 个 元 素 。 公 式 (2-17) 可 以 被 用 来 将 评分 矩阵 映射 为 特征 值 ， 不 过 在 公式 
(2-17) 的 右 侧 没 有 包含 第 j 个 物品 。 通 过 上 述 方法 可 以 对 每 个 用 户 产生 一 个 不 包含 未 知 
元 素 的 & 维 向 量 。 通 过 将 问题 直接 看 作 标 准 的 分 类 或 回归 模型 问题 ， 上 述 约 化 表示 Cre- 
duced representation) 被 用 来 建立 第 7 个 物品 的 决策 树 。 令 7 从 1 变化 到 n 并 对 每 一 个 j 
使 用 上 述 方法 ,我 们 可 以 构建 个 决策 树 ， 然 后 用 第 j 个 决策 树 对 第 7 个 物品 进行 预测 。 
n 个 物品 对 应 的 特征 值 和 决策 树 都 会 被 存储 为 模型 的 一 部 分 。 

为 了 预测 用 户 i 对 第 j 个 物品 的 评分 ，m Xd 的 矩阵 第 ; 行 被 用 作 测试 数据 ， 第 j 个 决 
策 / 回 归 树 被 用 来 预测 相应 的 评分 。 第 一 步 是 根据 公式 (2- 17),， 使 用 除了 物品 j 之 外 的 
nn 一 1 个 物品 来 为 测试 数据 建立 一 个 d 维 的 约 化 表示 。 注 意 要 使 用 第 7 个 特征 向 量 进行 投影 
和 约 化 。 得 到 的 表示 被 进一步 和 决策 树 或 回归 树 一 起 用 来 对 第 j 个 物品 进行 预测 。 这 里 需 
要 特别 注意 的 一 点 是 ， 这 种 合并 了 降 维 和 分 类 模型 的 泛 化 方法 输出 的 并 不 是 一 个 严格 的 决 
策 树 。 相 对 来 说 ， 这 种 方法 易于 与 各 种 分 类 模型 结合 ， 而 且 降 维 的 方法 也 会 在 推荐 系统 中 
被 独立 用 于 预测 ， 这 些 问 题 会 在 本 节 的 后 续 部 分 进行 讨论 。 


3.3 基于 规则 的 协同 过 滤 

关联 规则 [23] 和 协同 过 滤 的 关系 非常 自然 ， 这 是 因为 关联 规则 问题 最 早 的 提出 背景 
是 为 了 发 现 超市 数据 之 间 的 关联 关系 。 尽 管 通过 将 分 类 和 数值 型 的 数据 转化 为 二 元 数据 ， 
关联 规则 可 以 被 扩展 到 多 种 类 型 的 数据 上 ， 但 从 本 质 上 说 ， 关 联 规则 是 定义 在 二 元 数据 上 
的 。 为 了 讨论 方便 ， 我 们 将 假设 数据 是 一 元 的 。 一 元 数据 在 超市 交易 数据 和 隐 式 反馈 数据 
集合 中 非常 常见 。 
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的 m 个 事务 。 也 就 是 说 ， 工 是 物品 的 全 集 ， 事 务 T; 是 T 的 一 个 子 集 。 挖 掘 关联 规则 即 是 要 
找 出 交易 数据 库 中 那些 相关 性 较 高 的 物品 。 为 此 ， 可 以 定义 支持 度 (support) 和 置信 度 
(confidence) 来 度量 物品 的 相关 度 。 

定义 3.3. 1 (支持 度 ) ”物品 集 XET 的 支持 度 定义 为 了 中 包含 和 的 事务 所 占 的 百分比 。 

如 果 某 物品 集 的 支持 度 大 于 一 个 预先 定义 的 益 值 *， 则 称 物 品 集 是 频繁 的 。 该 阔 值 被 
称 为 最 小 支持 度 。 支 持 度 不 小 于 阅 值 的 物品 集 被 称 为 是 频繁 项 集 或 频繁 模式 。 频 繁 项 集 可 
以 为 用 户 购 买 行为 的 关联 性 提供 重要 线索 。 

例如 ， 考 虑 表 3-1 给 出 的 数据 集合 。 表 中 行 表示 客户 ， 列 表示 物品 。 表 中 填 “1” 的 
位 置 表示 客户 购买 了 该 物品 。 因 为 用 0 去 近似 缺失 值 是 一 种 在 隐 式 反馈 数据 集合 中 的 常用 
方法 ， 所 以 尽管 数据 是 一 元 的 ， 我 们 仍 使 用 0 表示 物品 不 存在 于 事务 中 。 很 明显 ， 该 表格 
的 列 可 以 被 分 为 两 个 高 相关 度 的 物品 集 : 一 个 是 { 面 包 ， 黄 油 ， 牛 奶 }， 另 一 个 是 ,{ 鱼 ， 
牛肉 ， 火 腿 }。 上 述 两 个 物品 集 是 唯一 包含 不 少 于 3 个 物品 且 支 持 度 不 低 于 0. 2 的 物品 集 。 
因此 ， 这 两 个 物品 集 均 是 频繁 项 集 或 频繁 模式 。 商 家 可 以 基于 此 类 高 支持 度 的 物品 集 提供 
推荐 以 及 做 出 其 他 市 场 决策 ， 因 此 找到 这 些 物品 集 对 于 商家 非常 有 用 。 例 如 ， 我 们 可 以 合 
理 地 推断 Mary 倾向 于 购买 面包 ， 因 为 她 已 经 购买 了 {黄油 ， 牛 奶 }。 类 似 的 ，John 更 倾 
向 于 购买 牛肉 ， 因 为 他 已 经 购买 了 { 鱼 ， 火 腿 }。 从 推荐 系统 的 角度 来 看 这 样 的 推断 非常 
AH. 


3-1 市 场 购物 篮 数 据 示例 


























更 进一步 的 线索 可 能 包含 相关 性 的 方向 ， 这 可 以 通过 关联 规则 和 置信 度 来 表示 。 一 条 
关联 规则 可 被 写作 “X 人 一 Y"， 其 中 “全 ”表示 物品 集 X 和 YY 之 间 的 相关 性 的 方向 。 例 如 ， 
由 于 我 们 已 经 知道 Mary 购买 了 黄油 和 和 牛奶， 那么 规则 {黄油 ， 和 牛奶} > (面包 ) 就 非常 
适用 于 给 Mary 推荐 面包 这 一 物品 。 规 则 的 强度 可 以 用 置信 度 来 衡量 。 

定义 3. 3. 2 (置信 和 度 ) 规则 XSYHMRERESX 的 事务 中 同时 包含 Y 的 条 件 概 率 
P(Y|X)， 因 此 ， 其 置信 度 等 于 XUY 的 置信 度 除 以 X 的 置信 度 。 

注意 XUY 的 置信 和 度 一 定 不 大 于 X 的 置信 度 ， 因 为 如 果 一 个 事务 包含 XUY， 那 么 它 
一 定 包含 X。 不 过 反 过 来 不 一 定 成 立 ， 因 此 一 条 规则 的 置信 度 的 值 总 是 位 于 (0，1) KE 
内 的 。 置 信 度 越 高 则 规则 越 强 。 例 如 ， 如 果 规 则 X 一 Y 为 真 ， 那 么 商家 只 要 知道 客户 购 
买 了 X 中 的 物品 ， 就 可 以 推断 出 客户 会 购买 了 中 的 物品 。 基 于 最 小 支持 度 s 和 最 小 置信 度 
c 可 以 如 下 定义 关联 规则 : i 

定义 3.3.3 (关联 规则 ) 规则 和 一 立 被 称 为 是 最 小 支持 度 y 和 最 小 置信 度 c 下 的 关联 
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规则 ， 如 果 下 述 两 个 条 件 同 时 被 满足 : 

1. XUY 的 支持 度 不 小 于 s; 

2 X 全 六 的 置信 度 不 小 于 c。 

寻找 关联 规则 的 算法 分 为 两 步 。 首 先 ， 确定 所 有 满足 最 小 支持 度 阔 值 s 的 物品 集 。 然 
后 ， 对 其 中 任 一 物品 集 Z， 用 所 有 可 能 的 二 路 划分 (X, Z—X) 产生 候选 规则 和 一 Z 一 X。 
候选 中 满足 最 小 置信 和 度 的 规则 被 保留 。 第 一 步 中 确定 频繁 项 集 需要 很 大 的 计算 量 ， 当 数据 
库 非 常 大 的 时 候 该 问题 尤为 严重 。 当 前 已 经 有 很 多 高 效 的 频繁 项 集 发 现 算法 被 提出 用 于 提 
高 这 一 步 的 效率 。 这 些 算 法 在 数据 挖掘 里 属于 专门 的 领域 ， 因 此 不 在 本 书 的 讨论 范围 之 
内 。 感 兴趣 的 读者 可 以 阅读 文献 [23] 来 获取 频繁 项 集 算法 的 细节 。 在 本 书 中 ， 我 们 将 展 
示 如 何在 协同 过 滤 中 使 用 这 些 算 法 。 


3.3.1 将 关联 规则 用 于 协同 过 滤 


当 使 用 一 元 评分 和 矩阵 来 提供 推荐 时 ， 关 联 规 则 非常 有 用 。 正 如 第 1、2 章 所 讨论 的 那 
样 ， 一 元 评分 和 矩阵 是 根据 客户 活动 (如 购买 行为 ) 创建 的 。 其 中 有 自然 的 机 制 可 以 得 知 用 
户 喜 欢 某 些 物品 ， 但 没有 机 制 来 判断 用 户 是 否 讨厌 某 些 物品 。 在 这 些 情况 下 ， 用 户 购买 的 
物品 被 设置 为 1， 而 未 出 现 〈 未 被 购买 ) 的 物品 则 用 0 近似 。 用 0 来 设置 未 出 现 的 物品 并 
不 是 大 多 数 评 分 矩阵 中 常见 的 做 法 ， 因 为 这 会 导致 预测 偏差 。 然 而 ， 它 通常 在 处 理 稀 玖 的 
一 元 矩阵 时 被 认为 是 可 接受 的 ， 因 为 在 这 些 情况 下 ，0 是 最 常见 的 属性 取 值 。 因 此 ， 偏 差 
相对 较 小 ， 我 们 可 以 将 矩阵 作为 一 个 二 元 数据 集合 对 待 。 

基于 规则 的 协同 过 滤 的 第 一 步 是 在 一 个 预先 确定 好 的 最 小 支持 度 和 最 小 的 置信 度 取 值 
下 发 现 所 有 的 关联 规则 。 最 小 支持 度 和 最 小 置信 度 可 以 看 作 是 能 被 调整 以 使 得 预测 准确 
度 最 大 化 的 参数 。 只 有 后 件 包含 单个 物品 的 规则 会 被 保留 。 该 规则 集合 就 是 可 以 被 用 来 为 
特定 用 户 提供 推荐 的 模型 。 给 定 需要 获取 相关 物品 推荐 的 用 户 A， 首 先 要 确定 A 触发 的 关 
联 规则 。 如 果 一 条 关联 规则 的 前 件 表示 的 物品 集 包含 于 A 喜欢 的 物品 集合 ， 则 称 该 规则 是 
A 能 够 触发 的 。 所 有 触发 规则 会 被 按照 置信 度 排序 ， 排 好 序 后 的 规则 的 前 & 个 后 件 即 是 要 
被 推荐 给 A 的 物品 。 上 述 方法 是 文献 (524) 中 算法 的 简化 版 本 。 许 多 基于 此 方法 的 变形 
常 被 应 用 于 推荐 系统 中 ， 如 采用 降 维 来 处 理 稀疏 性 的 方法 等 G52。 

上 述 关 联 规则 均 基 于 一 元 评分 和 矩阵， 其 可 以 设置 喜欢 的 物品 ， 但 不 允许 设置 讨厌 的 物 
品 。 不 过 ， 对 上 述 基础 方法 做 一 些 简 单 的 调整 就 可 以 处 理 数 值 型 的 评分 矩阵 。 当 可 能 的 评 
分 数 很 少时 ， 每 个 评分 -物品 组 合 的 值 可 以 被 当 作 是 一 个 伪 物 品 (pseudo-item) 来 处 理 。 
例如 ， 一 个 伪 物 品 可 以 是 (物品 = 面包， 评分 = 不 喜欢 )。 基 于 这 些 伪 物品 可 以 产生 新 的 
事务 ， 进 而 ， 之 前 讨论 的 一 元 矩阵 的 方法 就 可 以 被 用 来 产生 关联 规则 。 

因此 ， 这 些 规则 可 以 表示 为 如 下 形式 : 

(物品 三 面包, 评分 = 喜欢 ) > (物品 = 鸡蛋 , 评分 二 BH); 
(物品 = 面包 , 评分 = 喜欢 )AND (物品 = 鱼 , 评分 = 不 喜欢 ) 
会 (物品 一 鸡蛋 , 评分 = 不 喜欢 ) 

对 于 给 定 的 用 户 ， 其 触发 的 规则 是 通过 检查 规则 的 前 件 是 否 包含 该 用 户 的 某 些 伪 物 品 
来 确定 的 。 这 些 规 则 可 以 按照 置信 和 度 从 高 到 低 排序 ， 排 序 后 规则 的 后 件 可 以 进一步 被 用 来 
确定 前 & 个 需要 被 推荐 给 用 户 的 伪 物 品 。 一 个 额外 需要 考虑 的 步骤 是 ， 需 要 处 理由 不 同 的 





日 ”hold-out 和 交叉 验证 等 调 参 方法 将 在 第 7 章 中 讨论 。 
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规则 的 伪 物 品 冲突 所 导致 的 规则 冲突 。 例 如 ， 伪 物品 〈 物 品 王 面包 ， 评 分 三 喜欢 ) 和 ( 物 
品 王 面包， 评分 二 不 喜欢 ) 就 是 冲突 伪 物 品 。 可 以 对 规则 后 件 进行 某 种 聚集 操作 ， 再 根据 
聚集 结果 得 到 最 终 推 荐 排序 。 同 时 ， 也 可 以 基于 一 系列 的 启发 式 规 则 对 后 件 的 评分 数值 进 
行 聚集 。 例 如 ， 我 们 可 以 首先 确定 所 有 的 后 件 包 含 相 同 物品 的 触发 规则 ， 接 着 通过 加 权 投 
票 来 确定 该 物品 的 评分 取 值 。 投 票 的 权重 可 以 通过 置信 度 的 平均 值 来 设 定 ， 例 如 ， 如 果 两 
个 规则 后 件 〈 物 品 ) 对 应 的 评分 为 “喜欢 ”， 且 规则 置信 度 分 别 为 0.9 和 0.8， WBA “EB 
欢 ” 对 应 的 投票 结果 应 为 0. 9 十 0. 8 三 1. 7。 该 投票 结果 可 以 被 用 来 预测 该 物品 的 平均 评分 。 
对 于 所 有 规则 的 后 件 都 可 以 用 类 似 方法 确定 评分 值 。 最 终 的 评分 值 可 用 于 按 优先 级 降序 对 
物品 进行 排序 。 当 评分 值 的 粒度 非常 有 限 (例如 只 有 “喜欢 “或 “不 喜欢 ”) 时， 投票 方 
法 比较 合适 ， 而 对 于 基于 区 间 的 高 粒度 的 评分 规则 ， 可 以 将 评分 值 域 区 间 离 散 化 为 少数 几 
个 子 区 间 ， 再 使 用 刚才 的 方法 产生 推荐 。 在 文献 [18] 中 讨论 了 一 些 其 他 的 启发 式 方法 ， 
可 以 用 于 聚合 基于 规则 方法 的 预测 结果 。 在 许多 情况 下 已 经 表明 ， 对 每 个 物品 使 用 相同 的 
支持 度 阔 值 不 一 定 能 得 到 最 有 效 的 结果 ， 因 此 通常 会 对 每 个 正在 预测 的 物品 设置 专门 的 置 
信 度 jig {fy 958+ 359,.365 ] y 


3.3.2 面向 物品 的 模型 与 面向 用 户 的 模型 


面向 物品 的 模型 和 面向 用 户 的 模型 之 间 的 双向 关联 性 在 协同 过 滤 中 是 一 个 反复 出 现 的 
主题 。 第 2 章 的 近邻 模型 给 出 了 这 种 双向 关联 性 的 最 重要 的 示例 。 总 的 来 说 ， 通 过 转 置 评 
分 矩阵， 每 个 面向 用 户 的 模型 可 以 被 转化 为 面向 物品 的 模型 ， 反 之 亦 然 。 有 时 候 需 要 做 一 
些小 的 调整 来 转化 两 种 情况 下 的 语义 。 例 如 ， 有 些 情况 下 会 使 用 修正 的 余弦 相似 度 而 不 是 
Pearson 相关 系数 。 

前 面 所 述 基 于 规则 的 协同 过 滤 均 是 面向 物品 的 。 也 可 以 类 似 地 构建 面向 用 户 的 模型 。 
这 些 模 型 使 用 用 户 之 间 的 相关 性 而 不 是 物品 之 间 的 相关 性 6358' 55] 。 在 这 些 情 况 下 ， 规 则 
反映 的 是 用 户 之 间 的 相似 性 ， 而 非 物 品 之 间 的 相似 性 。 因 此 ， 和 之 前 讨论 的 类 似 ， 伪 用 户 
也 可 以 被 用 来 合并 用 户 的 打分 。 例 如 : 

(AP = Alice, 评分 = BK) > (AP = Bob, 评分 = 不 喜欢 ) 
CA È = Alice, 评分 = BK) AND (H È = Peter, 评分 = 不 喜欢 ) 
=> (AF = John, 评分 = 喜欢 ) 

第 一 条 规则 说 明 用 户 Bob 倾向 于 不 喜欢 Alice 喜欢 的 东西 。 第 二 条 规则 说 明 John 倾向 
FEM Alice 喜欢 但 Peter 不 喜欢 的 东西 。 可 以 使 用 与 之 前 所 讨论 的 完全 相同 的 方法 ， 在 
由 事务 矩阵 转 置 得 到 的 伪 用 户 和 矩阵 上 挖掘 这 些 规 则 。 换 言 之 ,与 每 个 物品 相关 的 伪 用 户 列 
表 被 看 作 是 新 间 题 中 的 “事务 ”。 在 这 个 新 得 到 的 事务 数据 库 上 挖掘 满足 最 小 支持 度 和 置 
信 度 的 关联 规则 即 可 。 为 了 预测 用 户 - 物 品 组 合 的 评分 ， 需 要 确定 与 伪 用 户 构 成 的 “事务 ” 
有 关系 的 物品 。 如 果 规 则 的 前 件 包 含 事 务 中 事务 构成 的 一 个 子 集 ， 那 么 就 称 规则 是 被 事务 
触发 的 。 首 先 要 确定 所 有 触发 的 规则 ， 接 着 在 这 些 触发 的 规则 中 确定 所 有 后 件 与 用 户 兴趣 
相关 的 规则 。 通 过 求 平 均 或 者 投票 决定 触发 规则 的 后 件 的 评分 ， 并 用 于 预测 。 在 求 平均 的 
时 候 还 可 以 通过 给 触发 规则 赋予 不 同 的 权 值 来 增加 健壮 性 ， 其 中 权 值 基于 规则 的 置信 度 来 
确定 。 总 之 ,面向 用 户 的 方法 完全 可 以 通过 基于 物品 的 方法 来 类 推 得 到 。 值 得 注意 的 是 ， 
与 基于 用 户 和 基于 物品 的 近邻 方法 一 样 ， 上 述 两 种 协同 过 滤 的 方法 是 互补 的 关系 。 

关联 规则 的 方法 不 仅 在 协同 过 滤 中 非常 有 用 ， 在 基于 内 容 的 推荐 系统 中 也 非常 有 用 。 
后 者 会 将 客户 的 画像 匹配 为 特定 的 物品 。 这 些 规 则 被 称 为 画像 关联 规则 ， 常 被 用 于 基于 画 
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像 的 推荐 系统 。 文 献 (31, 32] 中 展示 了 如 何 构建 一 个 高 效 的 交互 界面 来 为 不 同类 别 的 查 
询 给 出 基于 画像 的 推荐 。 

基于 关联 规则 的 推荐 系统 可 以 被 看 作 是 基于 规则 的 分 类 方法 的 泛 化 81。 这 二 者 最 主 
要 的 不 同 在 于 分 类 问题 中 产生 的 规则 的 后 件 通常 包含 的 是 表示 类 别 的 变量 ,但 是 在 推荐 系 
统 中 规则 的 后 件 可 以 包含 9 任何 物品 。 除 此 之 外 ， 在 协同 过 滤 和 分 类 中 ， 对 触发 规则 进行 
排序 和 冲突 消解 的 规则 的 启发 式 策略 也 是 类 似 的 。 这 二 者 之 间 的 自然 的 联系 直接 源 于 分 类 
问题 和 协同 过 滤 问 题 的 联系 。 二 者 之 间 的 区 别 主要 在 于 协同 过 滤 中 特征 变量 和 类 别 变量 之 
间 没 有 明显 的 界限 。 这 也 是 为 什么 在 协同 过 滤 中 可 以 产生 任意 的 关联 规则 ， 而 不 是 后 件 只 
包含 类 别 变量 的 那 种 简单 规则 。 

大 量 比较 研究 [858' 5 外 表明 使 用 了 关联 规则 的 系统 只 要 经 过 某 类 专门 的 配置 就 可 以 给 
出 精确 的 结果 。 这 一 方法 对 于 Web 推荐 系统 中 常见 的 一 元 数据 特别 有 用 。 因 为 这 些 方法 
针对 的 是 适用 于 Web 中 常见 的 鼠标 点 击 操作 的 稀 朴 事务 数据 ， 所 以 基于 关联 规则 的 方法 
在 基于 Web 的 个 性 化 和 推荐 系统 中 得 到 了 广泛 的 应 用 [52 。 而 且 ， 通 过 使 用 序列 模式 
挖掘 模型 ， 这 些 方法 可 以 进一步 扩展 到 包含 时 间 信息 的 数据 上 523] 。 


3.4 朴素 贝 叶 斯 协同 过 滤 


在 接 下 来 的 讨论 中 ， 我 们 将 假设 存在 少量 的 不 同 级 别 的 评分 ， 从 而 可 以 将 每 个 评分 看 
作 一 个 分 类 值 。 因 此 ， 在 后 续 的 讨论 中 评分 的 排序 将 被 忽略 。 例 如 ，“ 喜 欢 ”“ 中 立 ” 和 
“不 喜欢 ”这 三 个 评分 就 可 以 被 看 作 是 各 不 相同 且 无 序 的 值 。 在 这 种 情况 下 ,不 同 的 值 的 
个 数 很 少 ， 我 们 可 以 合理 地 使 用 某 些 近似 结果 而 不 必 损 失 太 多 精度 。 

假设 现 有 /个 不 同 的 评分 值 ， 记 为 wi…wvi。 与 本 章 讨论 的 其 他 模型 一 样 ， 我们 假设 有 
一 个 mXn 的 评分 和 矩阵 RR， 包含 m 个 用 户 对 有 个 物品 的 评分 。 矩阵 的 第 Cu, j) 个 值 表示 
WT tag o 

朴素 贝 叶 斯 模型 是 一 个 在 分 类 问题 中 常见 的 生成 模型 (generative model) 。 在 分 类 时 ， 
为 了 推断 矩阵 中 缺失 的 值 ， 可 以 将 物品 看 作 特 征 ， 用 户 看 作 实 例 。 在 协同 过 滤 中 使 用 此 模 
型 的 难点 在 于 ， 任 意 的 特征 (物品 ) 都 可 以 是 协同 过 滤 中 的 目标 分 类 ， 而 且 必 须 处 理 特征 
变量 不 完整 的 情况 。 这 一 不 同 点 可 以 通过 对 贝 叶 斯 模型 的 基本 方法 做 少量 修改 来 解决 。 

设 第 个 用 户 对 一 些 物品 进行 的 评分 结果 为 I,。 换 言 之 ， 如 果 评 分 矩阵 的 第 4 行 的 第 
1、3 和 5 列 已 知 ， 那 么 我 们 有 L= 们 ,3，5}。 假 设 现 在 需要 用 贝 叶 斯 分 类 器 预测 用 户 zx 
对 物品 j7 的 评分 ru， 注意 rw 可 以 是 (oe) 中 的 任意 一 个 。 那 么 ， 我 们 希望 能 确定 ry 
在 观察 到 评分 1, 的 条 件 下 取 各 个 值 的 概率 。 因 此 ， 对 于 任意 的 ;E {1…7}， 我 们 希望 能 够 
确定 概率 P(r = v |I 已 观测 的 评分 )， 此 表达 式 具 有 P(A1B) HBX, 其 中 A 和 B 是 
ry 取 值 和 观察 到 评分 1, 这 两 个 事件 。 该 表达 式 可 以 用 概率 论 中 著名 的 贝 叶 斯 定理 来 简化 。 


_ P(A) + P(B|A) 
P(A|B) = Sta 


对 se {lel} 中 的 每 个 值 ， 我 们 有 下 述 等 式 成 立 : 


= > _ Poy =v). PU, 中 的 已 观测 评分 |rw = vs) 
Pry = vs |I, 中 的 已 观测 评分 ) = PU, CREMAR 


(3-3) 





(3-4) 





日 ”在 基于 用 户 的 推荐 系统 中 ， 规 则 后 件 可 以 包含 任何 用 户 。 





rar] 
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我 们 需要 确定 令 上 式 左 部 的 PCrw = v (PE UE) BORA s 的 值 。 值 得 注意 
的 是 ， 公 式 (3- 4) 的 右 部 的 分 母 的 值 与 :无关 。 因 此 ， 为 了 确定 令 等 式 右 部 最 大 的 s 值 ， 
我 们 可 以 忽略 分 母 ， 把 上 述 等 式 转化 为 一 个 比例 常数 的 表示 : 

P( = vs |I 中 的 已 观测 评分 ) Porgy = v) + PU, 中 的 已 观测 评分 |rw = v) 

(3-5) 

如 果 有 需要 ， 上 述 比例 常数 可 以 导出 以 保证 结果 中 对 所 有 的 sE eel) 有 P(rw =v | Tu P 

的 已 观测 评分 ) 之 和 等 于 1。 一 个 关键 的 事实 是 公式 3-5) 右 部 所 有 的 参数 都 可 以 由 数 

据 驱 动 的 方式 导出 。 评 分 rwj 的 先 验 概率 Pry =v.) 可 以 根据 对 第 7 个 物品 评分 为 v, 的 用 

户 的 比例 来 估计 。 注 意 计算 上 述 比 例 的 时 候 仅 考虑 对 第 7 个 物品 给 过 评分 的 用 户 ， 未 评分 

的 用 户 则 不 应 在 考虑 范围 之 内 。 概 率 PC 中 的 已 观测 评分 |rw 二 wv;) 通过 朴素 假设 (naive 

assumption) 来 估计 。 朴 素 假设 基于 评分 之 间 的 条 件 独 立 性 。 条 件 独 立 性 假设 给 定 条 件 r = 

， 用 户 & 对 于 环 中 各 个 物品 的 评分 是 互相 独立 的 。 进 而 ， 上述 情况 可 以 数学 形式 表示 
如 下 : 

PC, 中 的 已 观测 评分 |rw = v) = || Pre ry = v) (3-6) 

kel, 


P(r |ru =o) 的 值 可 以 根据 用 户 对 第 j 个 物品 的 评分 为 v; 的 条 件 下 对 第 & 个 物品 评分 值 
的 比例 来 估计 。 加 入 了 先 验 概率 P(r =v.) 并 将 公式 (3-6) 带 入 公式 (3-5)， 就 可 以 如 
下 估计 用 户 w 对 物品 7 的 评分 的 后 验 概率 : 


Plrws = vs|Is 中 的 已 观测 评分 ) cc Pry = v) o [[P alri =v) B-D 
kET, 


可 以 通过 下 述 两 种 方式 之 一 来 估计 评分 rwj 的 后 验 概率 : 
1) 先 对 所 有 的 sE {1-1} 计算 公式 (3-7) 右 部 中 的 每 一 部 分 ， 然 后 找到 令 概 率 值 最 
大 的 ;， 我 们 可 以 确定 缺失 的 rw; 最 有 可 能 的 取 值 ， 换 言 之 ， RNA: 
rw =argmax, P (ry = vs |I 中 的 已 观测 评分 ) 


=argmax, P(rw = vs) + [IP i ==. Wy) 
KET, 


上 述 方法 将 评分 完全 当 作 类 别 来 处 理 ， 忽 略 了 不 同 评分 之 间 的 序 。 当 评分 可 能 的 取 值 
很 少时 ， 这 种 方法 是 合理 的 。 

2) 除了 计算 最 大 概率 ， 我 们 也 可 以 使 用 不 同 评分 的 加 权 平 均值 来 估计 目标 值 ， 其 中 
权 值 由 概率 值 来 确定 。 换 名 话说， 和 公式 (3-7) 中 所 示 相 同 ，w, 的 权 值 和 概率 P Cr = vs 
| 五 中 的 已 观测 评分 ) 的 值 成 正比 。 注 意 等 式 中 的 比例 常数 与 计算 加 权 平 均值 没有 关系 ， 
AERE R PERRA ry 的 估计 值 ? wy 可 以 如 下 计算 : 


ae 
Dos Pry = vs [La 中 的 已 观测 评分 ) 
Fuj == 

D Pery = v Iu 中 的 已 观测 评分 ) 


5 一 1 


l 
2% “P(rw =v) ° PUI 中 的 已 观测 评分 |rw = v5) 


1 





L 
Pr = v) © POL 中 的 已 观测 评分 |ru = v) 
s=] 
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l 


24 © Pry =v)» {| Btw leg = 4) 


s=1 kel, 


DP = v;) en [|P G lrg = v) 


kel, 

此 方法 更 适用 于 评分 的 可 能 取 值 更 多 的 情况 。 对 于 一 个 给 定 的 用 户 w， 其 未 评分 的 物 
品 的 评分 值 可 以 根据 上 述 方 法 估计 ， 最 终 ， 前 个 评分 估计 值 最 高 的 物品 会 被 输出 。 

值得 注意 的 是 ， 上 述 方法 基于 其 他 物品 的 评分 来 计算 当前 物品 的 条 件 概率 ， 因 此 是 一 
类 基于 物品 的 贝 叶 斯 方法 。 该 方法 是 传统 的 分 类 方法 的 直接 变形 ， 唯 一 的 不 同 之 处 在 于 ， 
传统 的 分 类 方法 中 要 预测 的 维度 (类) 是 确定 的 ， 而 协同 过 滤 中 该 维度 是 可 变 的 。 这 一 不 
同 之 处 也 是 源 于 协同 过 滤 是 分 类 问题 的 泛 化 (参见 图 3- 1) 。 在 特定 的 协同 过 滤 场 景 中 ， 同 
样 可 以 基于 其 他 用 户 对 相同 物品 的 评分 来 计算 待 预 测 物品 的 评分 的 概率 分 布 参见 习题 4) 
这 样 的 方法 可 以 被 认为 是 基于 用 户 的 贝 叶 斯 方法 。 我 们 甚至 可 以 合并 基于 用 户 的 和 基于 物 
品 的 贝 叶 斯 方法 。 事 实 上 几乎 所 有 的 协同 过 滤 算 法 ， 如 基于 近邻 的 和 基于 规则 的 方法 ， 都 
可 以 给 出 基于 用 户 的 角度 、 基 于 物品 的 角度 以 及 二 者 组 合 起 来 的 预测 结果 。 





3.4.1 处 理 过 拟 合 


原始 评分 矩阵 比较 稀 朴 且 评 分 的 可 能 取 值 数目 较 少 时 ， 会 有 一 个 问题 一 一 数据 驱动 的 
估计 可 能 不 再 具有 健壮 性 。 例 如 ， 如 果 只 有 少量 的 用 户 对 第 7 个 物品 进行 了 评分 ， 那 么 对 
于 先 验 概率 PCrw =v.) 的 估计 的 健壮 性 可 能 不 强 。 例 如 ， 如 果 从 来 没有 人 对 第 7 个 物品 进 
行 评分 ， 那么 用 上 述 方法 估计 会 得 到 0/0， 这 是 一 个 不 确定 的 结果 。 而 且 ， 对 公式 (3- 6) 
右 部 的 每 个 PCr |rw = vs) 的 估计 可 能 比 先 验 概率 的 估计 结果 更 加 不 健壮 。 这 是 因为 评 
分 和 矩阵 中 只 存在 很 小 一 部 分 的 值 满足 rw = 二 vw; 的 条 件 。 此 时 我 们 只 能 使 用 对 于 物品 j 评分 为 
vy; 的 用 户 数 据 来 进行 分 析 ， 如 果 这 样 的 用 户 很 少 ， 那 么 估计 就 会 不 准确 ， 进 而 导致 公 
A (3-6) 中 的 乘法 的 结果 和 真实 情况 有 很 大 的 偏差 。 例 如 ， 对 于 任意 EIT， 如 果 第 j 个 
物品 的 评分 为 wv 的 情况 下 没有 用 户 给 出 rw 对 应 的 评分 ， 那么 根据 乘法 的 性 质 ， 公 式 (3- 6) 
的 结果 会 是 0。 这 显然 是 一 个 由 于 估计 模型 参数 的 数据 量 太 小 而 导致 的 过 拟 合 结果 。 

拉 普 拉 斯 平滑 (Laplacian smoothing) 常 被 用 来 处 理 过 拟 合 问题 。 例 如 ， 给 定 aw 


Š 
是 用 户 对 第 j AURAA o u WA, KRIKKE Rt a/> ae 来 估计 
t=1 


P(rw 二 v;)， 而 是 使 用 拉 普 拉 斯 平滑 因子 a 来 做 如 下 平滑 处 理 ; 
qs ta 


Mati a 


注意 ， 如 果 第 j 个 物品 没有 得 到 任何 评分 ， 那么 上 述 方法 会 对 每 个 可 能 的 评分 信使 用 巴 HBL AY 
先 验 概率 1/1。a 的 值 用 来 控制 平滑 的 程度 。a 越 大 则 结果 越 平滑 ， 但 是 也 对 于 原始 数据 越 不 
敏感 。 只 需 令 分 子 和 分 母 分 别 加 a 和 4，a， 就 可 以 使 用 类 似 的 方法 来 估计 PCr | raj = 05) 0 


3.4.2 示例 : 使 用 贝 叶 斯 方法 处 理 二 元 评分 


本 小 节 我 们 将 展示 如 何在 5 个 用 户 、6 个 物品 的 情况 下 使 用 贝 叶 斯 方法 处 理 二 元 评分 
和 矩阵。 用 户 的 评分 可 以 是 fur, w}={—1, 1} 中 的 一 个 。 评 分 矩阵 如 表 3-2 所 示 。 虽 然 
拉 普 拉 斯 平滑 在 实际 处 理 这 种 情况 时 非常 重要 ， 但 为 了 方便 讨论 ， 我 们 在 这 里 将 不 使 用 拉 





Pry = u) = (3-8) 
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普 拉 斯 平滑 。 现 在 考虑 我 们 要 预测 用 户 3 的 两 个 缺失 评分 。 因 此 ， 我 们 要 基于 观察 到 的 用 
户 3 的 评分 来 计算 ra 和 ras 取 {—1. 1) 对 应 的 概率 。 通 过 使 用 公式 (3-7)， 我 们 可 以 得 
到 用 户 3 对 物品 1 的 评分 的 后 验 概率 如 下 : 
Plrsi = 1| 732 5733 97349735) cc Plrst 一 1)。P(rz = 1| 731 = 1) < Plrss = 1|r3 = 1) 
“了 了 (ra4 =— l lra = 1) « Plrss =— 1|rs = 1) 

右 部 的 每 一 物品 可 以 基于 表 3- 2 中 的 数据 用 之 前 给 出 的 公式 来 计算 : 

P(rsal = 1) = 2/4 = 0.5 

P(rs2-= 1 | rx. = 1) = 1/2 = 0.5 

Plr = 1|ra = 1) =1/1=1 

P(r34 =— 1|r31 = 1) = 2/2 = 1 

P(r3g. =— 1 |ra = 1) = 1/2 = 0.5 
将 上 述 值 带 入 之 前 的 等 式 ， 我 们 有 : 

了 P(ral = 1| rae +733 +734 9735) oC (0..5)(0. 5)(1)(1). (0. 5) = 0. 125 

对 ra = — 1 的 情况 同样 做 上 述 计算 可 得 : 


Pera == rera 5 人 人) 全 )( 呈 (人 )=。 
因此 ， 评 分 mm: 取 值 为 1 的 概率 高 于 取 值 为 一 1 的 概率 ， 因 此 其 预测 值 为 1。 可 以 使 用 类 似 
的 方法 得 知 r36 的 预测 值 为 一 1]。 那 么 ， 如 果 只 需 选 择 评 分 最 高 的 物品 推荐 给 用 户 3， 物 品 
1 要 好 于 物品 6。 


表 3-2 在 二 元 评分 矩阵 上 的 贝 叶 斯 方法 示例 


























3.5 将 任意 分 类 模型 当 作 黑 盒 来 处 理 


许多 其 他 的 分 类 (或 回归 ) 方法 可 以 被 扩展 来 解决 协同 过 滤 问 题 。 这 些 方法 中 最 主要 
的 挑战 在 于 原始 数据 是 不 完整 的 。 对 于 有 些 分 类 器 来 说 ， 针 对 不 完整 的 数据 来 调整 模型 显 
得 更 为 困难 。 一 元 数据 算是 一 个 例外 ， 因 为 缺失 的 值 通 常 被 估计 为 0， 非 缺失 项 则 通常 被 
个 计 为 1。 因 此， 底层 的 矩阵 与 高 维 的 稀疏 二 元 数据 类 似 。 在 这 些 情况 下 ， 数 据 可 以 被 看 
作 是 完整 的 ， 并 适用 于 所 有 针对 稀 玖 高 维 二 元 数据 的 分 类 器 。 幸 运 的 是 ， 许 多 类 别 的 数 
据 ， 包 括 客户 事务 数据 、Web 点 击 数据 以 及 其 他 类 别 的 行为 数据 ， 都 可 以 表示 为 一 元 甜 
阵 。 值 得 注意 的 是 ， 文 本 数据 同样 是 稀 朴 且 高 维 的 ， 因 此 ， 许 多 适用 于 文本 挖掘 的 分 类 器 
可 以 直接 应 用 于 此 类 数据 。 事 实 上 ， 文 献 [669] 中 的 研究 表明 ， 可 以 直接 将 适用 于 文本 
数据 的 支持 向 量 机 应 用 于 (一 元 ) 协同 过 滤 ， 不 过 需要 考虑 一 个 平方 形式 的 损失 函数 。 该 
损失 函数 使 得 模型 更 像 正 则 化 的 线性 回归 。 同 时 , 文献 [669] 中 提出 ， 由 于 类 的 分 布 并 
不 均衡 ， 这 会 使 得 稀有 类 学 习 算 法 在 协同 过 滤 中 非常 有 用 。 例 如 ， 为 了 让 支持 向 量 机 方法 
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适用 于 协同 过 滤 ， 我 们 可 以 对 出 现 次 数 很 多 和 很 少 的 类 使 用 不 同 的 损失 函数 。 大 量 方法 被 
提出 来 将 不 同 的 分 类 和 回归 方法 扩展 到 协同 过 滤 。 例 如 ， 平 滑 支持 向 量 机 [ss5 可 以 使 用 一 
种 迭代 的 方法 来 估计 用 户 一 物品 矩阵 中 的 缺失 项 。 

对 于 那些 评分 矩阵 不 是 一 元 的 情况 ， 我 们 无 法 直接 用 0 去 填充 缺失 值 ， 否 则 将 会 导致 
很 大 的 偏差 ， 这 在 第 2 章 的 2. 5 节 已 经 讨论 过 了 。 虽 然 如 此 ， 就 像 在 那 一 节 中 我 们 讨论 的 
那样 ， 一 些 降 维 的 方法 可 以 被 用 来 创建 完整 的 数据 低 维 表示 。 这 样 一 来 ， 我 们 可 以 把 数据 
的 低 维 表示 看 作 是 特征 变量 ， 每 个 需要 被 填补 的 列 都 看 作 是 类 变量 ， 那 么 就 可 以 应 用 任意 
一 个 已 知 的 分 类 方法 。 这 样 做 的 主要 问题 在 于 在 分 类 过 程 中 会 损失 可 解释 性 。 降 维 之 后 的 
表示 是 原始 列 的 线性 组 合 ， 因 此 我 们 很 难 对 预测 结果 做 出 解释 。 

为 了 在 原始 的 特征 空间 上 进行 分 析 ， 一 个 可 行 的 办 法 是 在 迭代 的 过 程 中 使 用 分 类 算法 
作为 元 算法 。 换 言 之 ， 可 以 用 现成 的 分 类 算法 作为 黑金 来 基于 评分 已 知 的 物品 预测 评分 未 
知 的 物品 。 那 么 如 何 来 处 理 训练 数据 中 某 些 列 的 值 缺失 的 问题 呢 ? 这 里 的 诀窍 在 于 要 逐步 
求 精 ， 不 断 地 迭代 填充 缺失 值 。 逐 步 求 精 的 目标 通过 黑 盒 〈 即 现成 的 分 类 或 回归 建 模 ) 算 
法 来 达成 。 

考虑 任 一 用 于 处 理 完整 数据 的 分 类 /回归 建 模 算法 A。 首 先 ， 我 们 用 行 平均 值 、 列 平 
均值 或 其 他 任何 可 用 的 协同 过 滤 方 法 来 初始 化 缺失 值 。 例 如 ， 我 们 可 以 用 基于 用 户 的 算法 
来 完成 这 一 初始 化 的 步 又。 作为 一 个 可 选 的 优化 ， 可 以 对 评分 矩阵 的 每 一 行 做 一 些 居 中 操 
作 来 去 除 用 户 偏差 ， 然 后 在 得 到 预测 结果 之 后 将 每 个 用 户 的 偏差 和 预测 值 相 加 。 预 处 理 时 
去 除 用 户 偏差 的 工作 9 通常 可 以 使 得 预测 结果 有 更 高 的 健壮 性 。 如 果 用 户 偏差 被 去 除了 ， 
那么 缺失 值 总 是 可 以 用 行 的 平均 值 〈 也 就 是 0) 来 填充 。 

当 使 用 人 工 方法 填充 训练 数据 中 的 缺失 值 时 ， 上 述 的 初始 化 和 偏差 去 除 方法 仍 会 导致 
预测 偏差 。 这 些 预 测 偏差 可 以 通过 下 述 两 步 迭 代 来 去 除 。 

1) GER D: 将 每 一 行 分 别 作为 目标 列 ， 其 他 列 作为 特征 列 ， 使 用 算法 4 估计 缺失 
值 。 对 于 剩余 的 列 ， 使 用 当前 的 数据 集合 来 创建 一 个 包含 完整 的 特征 值 的 矩阵 ， 然 后 用 目 
标 列 的 已 知 值 作 为 训练 数据 来 预测 缺失 值 。 

2) GER 2): 基于 算法 4 对 目标 列 的 预测 结果 更 新 所 有 人 缺失 值 。 

上 述 两 步 不 断 迭 代 直 到 收敛 。 这 种 方法 对 于 初始 化 和 算法 .4 的 质量 非常 敏感 ， 但 优点 
在 于 其 是 一 个 非常 简单 且 易于 实现 的 方法 ， 并且 可 以 和 任意 现成 的 分 类 或 回归 模型 组 合 。 
如 果 评 分 是 数值 化 的 ， 则 可 以 用 线性 回归 来 处 理 。 文 献 [571] 给 出 了 一 种 方法 ， 可 以 集 
成 不 同类 型 的 分 类 器 来 处 理 任 意 种 类 的 评分 值 。 


3.5.1 示例 : 使 用 神经 网 络 作 为 黑 盒 分 类 器 


本 节 我 们 给 出 前 文 所 述 方法 的 一 个 简单 的 示例 。 在 本 例 中 ， 我 们 使 用 神经 网 络 方法 作 
为 黑 盒 分 类 器 。 为 了 方便 讨论 ， 我 们 假设 读者 已 经 非常 了 解 神经 网 络 的 相关 知识 [sz] ， 但 
在 后 续 讨 论 中 也 会 对 相关 知识 做 概要 的 介绍 。 

神经 网 络 模拟 了 人 类 大 脑 使 用 通过 突 触 连接 的 神经 元 的 方式 。 在 生物 系统 中 ， 学 习 是 
通过 改变 突 触 连接 的 强度 来 应 对 外 界 刺激 的 。 在 人 工 神经 网 络 中 ， 基 本 的 运算 单元 同样 被 


日 ”也 可 以 用 更 复杂 的 方法 来 去 除 用 户 偏差 以 获得 更 好 的 算法 性 能 。 例 如 ,偏差 By MAA i 对 第 j 个 项 的 评分 ) 
可 以 用 3. 7. 1 节 的 方法 计算 。 在 预 处 理 时 ， 需 要 对 所 有 的 已 知 值 减 去 这 一 偏差 ， 并 初始 化 所 有 的 未 知 值 为 0， 
在 得 出 了 预测 结果 之 后 ， 再 在 后 处 理 阶 段 用 偏差 B5 与 预测 结果 相 加 。 
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称 为 神经 元 ， 突 触 连接 的 强度 则 对 应 神经 网 络 中 的 权重 。 这 些 权重 定义 了 学 习 算 法 中 的 参 
数 。 最 基本 的 神经 网 络 架构 是 感知 器 (perceptron) ， 其 包含 了 若干 输入 结 点 和 输出 结 点 。 
图 3-3a 给 出 了 感知 器 的 一 个 例子 。 对 于 一 个 包含 d 个 不 同 维度 的 数据 集合 ， 感 知 器 中 有 4 
个 不 同 的 输入 结 点 。 输 出 结 点 与 权重 集合 WW 相关 ， 用 于 计算 出 关于 d 个 输入 的 函数 
大。)。 一 个 典型 的 函数 是 对 二 元 输出 非常 有 效 的 符号 线性 函数 (signed linear function) ; 

zi = sign{W + X; +b} (3-9) 
令 Xi; 是 一 个 d 维 行 向 量 ， 表 示 第 i 个 实例 的 d 个 输入 ，W 是 系数 向 量 。 在 协同 过 滤 的 
语 境 下 ,4 个 输入 对 应 (n 一 1) 个 物品 ， 需 要 使 用 这 (n 一 1) 个 物品 来 预测 剩余 的 那个 物 
me BRRR i 个 实例 的 标签 是 yo W y: 表示 正 要 被 预测 物品 的 已 知 评分 。 参 数 2 表示 偏 
差 。 可 以 看 出 ， 除 了 预测 函数 不 太 相 同 ， 我 们 现在 使 用 的 方法 与 线性 回归 非常 相似 。z; 的 
值 是 预测 的 输出 ， 和 线性 回归 类 似 ， 错 误 率 (xz; 一 yi;)? 被 用 来 更 新 权 值 砚 。 这 与 最 小 二 乘 
中 使 用 的 梯度 下 降 非 常 类 似 ， 在 神经 网 络 中 ， 更 新 公式 如 下 : 
W = W' +alyi— zi) Xi (3-10) 
Ep, >00 表示 学 习 率 ， 琵 ' 表示 第 t 个 迭代 中 权 值 向 量 的 值 。 不 难 表示 增 量 更 新 向 量 是 
EFW 的 负 梯 度 。 我 们 迭代 项 中 所 有 已 知 评分 来 获得 更 新 。 由 于 我 们 假设 y; 是 二 元 ， 该 
方法 适用 于 二 元 评分 矩阵。 当然 ， 也 可 以 设计 输出 不 是 二 元 的 神经 网 络 ， 预 测 函 数 也 不 必 
非得 是 线性 。 
通常 说 来 ， 神 经 网 络 可 以 有 多 层 ， 中 间 结 点 可 以 计算 非 线性 函数 。 图 3- 3b 给 出 了 一 
个 多 层 神经 网 络 的 例子 。 当 然 ， 这 样 的 神经 网 络 也 会 导致 参数 数目 的 增加 。 与 此 相关 的 学 
习 算 法 是 反 向 传播 算法 [87] 。 多 层 神 经 网 络 的 优点 在 于 能 够 计算 其 他 分 类 器 难以 处 理 的 复 
杂 的 非 线 性 函数 。 因 此 ， 神 经 网 络 也 称 为 万 能 函数 通 近 器 (universal function approxima- 
tor) 。 对 于 像 评分 矩阵 这 种 存在 噪声 的 数据 ， 可 以 用 回归 来 降低 噪声 的 影响 。 


输入 结 点 输入 层 
| ® 





i $ 
a) 感知 器 b) 多 层 
图 3-3 单 层 和 多 层 神 经 网 络 


考虑 图 3-4 左 部 所 示 的 4 个 物品 的 评分 矩阵 。 在 这 个 例子 中 ， 物 品 对 应 电影 。 第 一 步 
是 要 对 每 行 做 均值 中 心 化 处 理 ， 以 去 除 用 户 偏 差 。 处 理 过 后 的 矩阵 如 图 3-4 右 部 所 示 。 注 
意 缺 失 值 被 用 行 的 均值 (均值 中 心 化 后 为 0) 来 填充 了 。 由 于 一 共有 4 个 物品 ， 因 此 有 4 
种 可 能 的 神经 网 络 模型 ， 每 个 模型 以 评分 矩阵 中 的 三 列 为 训练 数据 ， 剩 余 一 列 为 测试 数 
据 。 这 4 个 神经 网 络 如 图 3-5 所 示 。 图 3-4 中 所 示 的 完整 的 矩阵 用 来 在 第 一 轮 和 迭代 中 训练 
神经 网 络 。 对 于 训练 矩阵 中 的 每 一 列 ， 图 3-5 中 对 应 的 神经 网 络 可 以 用 来 为 之 进行 预测 。 
神经 网 络 输出 的 预测 结果 被 用 来 更 新 缺失 值 从 而 得 到 新 的 矩阵 。 换 言 之 ， 我 们 使 用 现成 的 
神经 网 络 的 训练 和 预测 方法 ， 所 得 的 神经 网 络 只 被 用 来 更 新 图 3-4 中 的 阴影 部 分 ， 更 新 之 
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后 图 3-4 中 的 引用 部 分 不 再 是 0， 新 的 矩阵 会 在 下 一 轮 迭 代 中 被 用 来 预测 。 此 迭代 过 程 一 
直 重 复 直 至 收敛 。 注 意 ， 每 一 轮 迭 代 都 需要 经 历 个 训练 过 程 ， 其 中 是 物品 的 个 数 。 然 
而 ， 并 不 是 每 一 轮 和 迭代 都 需要 从 头 开始 训练 参数 。 上 一 轮 和 迭代 的 参数 对 新 一 轮 和 迭代 是 一 个 
好 的 开始 。 由 于 底层 数据 是 高 维 的 ， 所 以 应 用 正则 化 非常 重要 [2z20] 。 


sé 
E 
& g 


对 每 一 行 做 均值 中 心 化 
处 理 并 用 0 填充 缺失 值 





图 3-4 预 处 理 评 分 和 矩阵。 阴影 部 分 会 被 反复 更 新 


此 模型 中 ， 输 入 表示 不 同 种 类 的 物品 的 评分 ， 因 此 可 以 将 其 看 作 一 个 基于 物品 的 模 
型 。 如 果 用 输入 表示 不 同 用 户 的 评分 ， 我 们 同 
样 可 以 创建 一 个 基于 用 户 的 模型 ?9] 。 主 要 的 Gladiator 
挑战 来 源 于 神经 网 络 的 输入 规模 会 变 得 非常 
大 。 因 此 ,文献 [679] 建议 输入 结 点 不 必 包 
含 所 有 用 户 ， 而 只 需 包含 不 为 空 的 评分 物品 
的 个 数 超过 某 个 最 小 冰 值 的 用 户 。 再 进一步 ， 
非常 相似 的 用 户 也 不 必 都 出 现在 输入 中 ， 因 Goodfellas 
此 可 以 基于 某 些 启发 式 策略 [中 来 在 初始 时 
刻 区 分 用 户 的 多 样 性 。 该 方法 可 以 当 作 神经 
网 络 的 特征 选择 ， 并 可 以 同样 用 于 基于 物品 
的 模型 。 


3.6 潜在 因子 模型 


在 第 2 章 的 2.5. 节 中 ， 我们 讨论 了 一 些 用 (预测 结果 ) 
来 对 不 完整 数据 产生 完整 表示 的 降 维 方法 。 在 
第 2 章 中 ,我 们 讨论 了 大 量 的 启发 式 方法 ， 这 
些 方法 能 够 在 使 用 基于 近邻 的 算法 时 给 出 完整 
的 多 维 表达 [525] 。 这 样 的 数据 降 维 技术 同样 可 co lS 
以 用 于 以 分 类 算法 为 子 程序 的 其 他 基于 模型 的 ( 预测 结果 ) 
方法 。 因 此 ， 对 于 前 面 讨论 过 的 所 有 方法 ， 都 
可 以 使 用 降 维 的 方法 来 获得 更 便于 使 用 的 数据 图 3-5 用 神经 网 络 来 预测 和 更 新 缺失 值 (图 3-4 
表达 。 本 章 将 讨论 更 为 复杂 的 方法 ， 这 是 因为 中 的 阴影 部 分 的 值 由 神经 网 络 来 迁 代 更 新 ) 










Goodfellas 


( 预测 结果 ) 


Gladiator 
(预测 结果 ) 
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要 通过 降 维 来 直接 对 评分 矩阵 进行 估计 。 

最 早 使 用 潜在 因子 模型 来 完成 矩阵 填充 的 研究 工作 见于 文献 [24，525]j。 其 基本 思想 
基于 一 个 事实 一 一 矩阵 中 大 部 分 的 行 和 列 都 是 相关 的 。 因 此 可 以 认为 数据 中 包含 元 余 ， 我 
们 可 以 使 用 一 个 低 阶 的 矩阵 来 近似 当前 和 矩阵。 基于 数据 中 这 种 固有 的 元 余 性 ， 即 便 原 始 数 
据 中 只 有 非常 少量 的 项 已 知 ， 我 们 也 可 以 给 出 原始 矩阵 的 一 个 完整 的 低 阶 近似 。 这 种 完全 
的 低 阶 近似 通常 能 对 缺失 项 提供 一 个 高 健壮 性 的 估计 。 文 献 [24] 就 提供 了 一 种 能 够 综合 
最 大 期 望 (EM) 方法 和 降 维 技术 来 补 全 数据 矩阵 的 方法 。 

潜在 因子 模型 在 推荐 系统 中 被 认为 是 一 种 最 先进 的 方法 。 这 些 模型 利用 了 一 些 著 名 的 
降 维 方法 来 填充 缺失 项 。 降 维 方法 在 数据 分 析 的 其 他 领域 中 经 常 被 用 来 得 到 原始 数据 的 低 
维 表示 。 其 基本 思想 是 旋转 坐标 系 ， 以 使 得 维度 之 间 的 两 两 相关 性 被 去 除 ， 得 到 的 降 维 和 
旋转 后 的 完整 数据 表示 可 以 有 效 地 近似 原始 的 不 完整 矩阵 。 一 旦 获得 了 完整 的 数据 表示 ， 
则 我 们 可 以 再 反 向 旋转 回 原始 坐标 系 以 得 到 完整 的 数据 表示 [9 。 在 内 部 ， 降 维 利用 了 行 
和 列 之 间 的 相关 性 来 得 到 完整 的 数据 表示 。 无 论 在 基于 近邻 的 还 是 基于 模型 的 协同 过 滤 算 
法 中 ， 相 关 性 发 挥 的 作用 都 是 至 关 重 要 的 。 例 如 ， 基 于 用 户 的 近邻 方法 利用 了 用 户 之 间 的 
相关 性 ， 基 于 物品 的 近邻 方法 则 利用 了 物品 之 间 的 相关 性 。 和 矩阵 因子 分 解 给 出 了 一 种 优雅 
的 同时 利用 行列 相关 性 来 估计 整个 数据 矩阵 的 方法 。 这 种 方法 的 复杂 性 使 其 成 为 协同 过 滤 
中 最 先进 的 方法 。 为 了 更 好 地 理解 为 什么 潜在 因子 模型 如 此 有 效 ， 我 们 将 给 出 两 种 直观 想 
法 ,一 种 是 几何 学 的 ， 另 一 种 直接 阐明 了 语义 解释 。 这 两 种 直观 想法 体现 了 如 何 利 用 高 相 
关 性 数据 中 的 数据 元 余 来 创建 低 维 近似 。 


3.6.1 潜在 因子 模型 的 几何 解释 


我 们 首先 基于 文献 (24) 中 的 讨论 给 出 一 个 潜在 因子 模型 的 几何 解释 。 为 了 理解 低 
阶 、 完 余 和 相关 性 的 关系 ， 可 以 考虑 一 个 三 个 物品 的 评分 和 矩阵， 三 个 物品 是 正 相 关 的 。 假 
设 是 电影 评分 场景 ， 被 评分 的 三 个 电影 分 别 是 《Nero》《Gladiator》 和 《Spartacus》。 为 
了 方便 讨论 ， 我 们 假设 评分 是 [一 1，1] 区 间 内 的 连续 数值 。 如 果 评 分 是 正 相 关 的 ， 那 么 
评分 的 三 维 散 点 图 可 能 大 致 位 于 一 个 一 维 的 直线 上 ， 如 图 3-6 所 示 。 由 于 数据 大 多 分 布 在 
一 维 的 直线 上 ， 这 表示 在 去 除了 原始 数据 的 噪声 变量 之 后 ， 数 据 应 当 近 似 是 1 阶 的 。 例 
W. Æ 3-6 中 的 1 阶 近 似 可 以 是 一 个 经 过 数据 点 中 心 且 与 数据 的 狭长 分 布 对 齐 的 一 维 直 线 
(或 隐 向 量 ) 。 注 意 一 些 降 维 方法 ， 如 主 成 分 分 析 (PCA) 和 (均值 中 心 化 的 ) 奇异 值 分 解 
(SVD) 用 数据 到 这 条 直线 的 投影 作为 近似 。 痉 X 寺 的 评分 矩阵 的 阶 户 和 min {m, n) (ER 
了 噪声 变量 之 后 )， 那 么 数据 可 以 用 以 维 的 超 平面 来 近似 。 在 这 种 情况 下 ， 对 于 一 个 用 户 
来 说 ， 当 p 维 超 平面 已 知 时 ， 其 缺失 的 评分 值 通常 可 以 仅 通 过 p 个 确定 的 评分 就 推断 出 
来 。 例 如 ， 在 图 3-6 中 ， 由 于 去 除了 噪声 变量 之 后 ， 评 分 和 矩阵 是 1 维 的 ， 因 此 我 们 只 需要 
知道 一 个 物品 的 评分 就 可 以 推断 出 其 他 两 个 物品 的 评分 值 。 例 如 ， 假 如 电影 《Spartacus》 
的 评分 为 0. 5， 那么 《Nero》 和 《Gladiator》 的 评分 可 以 在 一 维 隐 向 量 和 与 坐标 轴 平 行 的 
(《Spartacus》 二 0. 5) 的 超 平面 的 相交 处 来 估计 9S 。 该 超 平面 如 图 3-6 所 示 ， 因 此 ， 如 SVD 
这 样 的 降 维 方法 可 以 利用 属性 之 间 的 关系 和 元 余 来 推断 缺失 项 。 

这 种 情况 假设 已 知 的 数据 和 矩阵 可 以 被 用 来 推测 隐 向 量 。 与 图 3-6 所 示 的 狭长 的 线性 数 
据 分 布 类 似 ， 在 实际 应 用 中 ， 为 了 顾及 支配 (dominant) 隐 向 量 ， 数 据 和 矩阵 不 需要 完全 确 





日 第 3.6.5.3 节 给 出 了 如 何 基 于 该 方法 在 不 同 场景 下 进行 估计 的 细节 描述 。 
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图 3-6 对 于 只 对 电影 《Spartacus》 评 分 0.5 的 用 户 ， 利 用 基于 相关 性 的 宛 余 来 估计 缺失 数据 


-0.6 og -1 《Nero》 评 分 


定 。 通 过 不 完整 的 数据 来 估计 隐 向 量 的 能 力 是 潜在 因子 模型 成 功 的 关键 。 此 类 方法 基本 思 
想 在 于 找到 一 个 隐 向 量 的 集合 ， 使 得 基于 这 些 隐 向 量 定义 的 从 超 平面 到 数据 点 (表示 用 户 
的 单个 评分 值 ) 的 均 方 距 离 (average squared distance) 尽 可 能 小 。 因 此 ， 我 们 必须 使 用 
部 分 确定 的 数据 集 去 恢复 数据 近似 存在 的 低 维 超 平 面 。 这 样 ， 我 们 可 以 隐 含 地 捕获 数据 关 
联结 构 中 的 潜在 宛 余 并 一 次 性 获取 缺失 值 ， 因 为 潜在 的 元 余 能 帮助 我 们 来 预测 缺失 项 的 
值 。 不 过 值得 注意 的 是 ， 如 果 数 据 没 有 任何 的 关联 性 和 宛 余 ， 那 么 潜在 因子 模型 是 无 法 工 
作 的 。 


3. 6.2 潜在 因子 模型 的 低 秩 解释 


上 一 节 给 出 的 几何 解释 有 助 于 在 隐 向 量 正 交 的 情况 下 理解 隐 向 量 的 作用 。 然 而 ， 隐 向 
量 不 总 是 相互 正 交 的 。 在 这 种 情况 下 ， 线 性 代数 的 知识 有 助 于 理解 。 潜 在 因子 模型 之 所 以 
有 效 的 一 种 解释 是 基于 矩阵 的 因子 分 解 〈factorization) 的 作用 的 。 事 实 上 ， 当 行 (或 列 ) 
之 间 存 在 关联 性 因而 容易 降 维 时 ， 因 子 分 解 是 一 种 更 通用 的 估计 和 矩阵 的 方法 。 绝 大 多 数 降 
维 方法 可 以 用 因子 分 解 来 表达 。 
首先 ， 让 我 们 考虑 简单 的 情形 评分 矩阵 中 所 有 的 项 的 值 都 是 已 知 的 。 关 键 的 想法 
在 于 任意 mXn 上 且 秩 kmin {m,n} WEE R 可 以 表示 成 如 下 k 个 因子 的 乘积 : 
R=vUv"? (3=11) 
其 中 , U 是 一 个 m Xk 的 矩阵 ,VV 是 一 个 n Xk 的 矩阵 。 注 意 ， 尺 的 行 空间 9 和 列 空间 的 秩 
APE k. U 的 每 一 列 可 以 被 看 作 R Wk 维 列 空间 的 & 个 基 向 量 之 一 ，V 的 第 7 行 包含 相应 
的 系数 ， 将 这 些 基 向 量 合并 到 R 的 第 7 列 中 。 又 或 者 ,我 们 可 以 将 V 的 列 看 作 是 R 的 行 空 
ASE, KU 的 列 看 作 是 相应 的 系数 。 这 里 ， 秩 为 的 矩 阵 的 因子 分 解 基 于 线性 代数 





日 ”矩阵 的 行 空间 定义 为 矩阵 行 的 所 有 可 能 的 线性 组 合 。 和 矩阵 的 列 空间 定义 为 矩阵 列 的 所 有 可 能 的 线性 组 合 。 
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的 一 些 基 础 知识 [568 ， 对 于 不 同 的 基 向 量 集合 的 因子 分 解 可 能 有 无 穷 多 种 。SVD 是 此 类 因 
子 分 解 的 一 个 例子 ， 其 中 UU 的 列 〈 以 及 Y 的 列 ) 表示 的 基 向 量 是 正 交 的 。 
即使 矩阵 R 的 秩 大 于 &， 其 也 可 以 近似 表示 为 广 秩 因子 的 乘积 。 


RUVT (3-12) 
和 之 前 一 样 , U 是 m Xk RE, V 是 nX&k OE. IW RAS F || R-UV" |?, 其 
|| + || Rael ese (R-UV') 的 项 的 平方 和 。 这 个 量 也 称 为 剩余 矩阵 的 〈 平 方 ) 


Frobenius 范 数 。 剩 余 矩 阵 主要 表示 评分 矩阵 的 无 法 用 低 秩 因子 建 模 的 噪声 。 为 了 简化 讨 
$. 我 们 来 考虑 R 完全 已 知 的 简单 情况 。 我 们 首先 考虑 因子 分 解 过 程 的 内 在 含义 ， 然 后 讨 
论 和 矩阵 缺失 项 时 该 含义 的 引申 意义 。 

因子 分 解 的 引申 意义 是 什么 ， 其 对 于 和 矩阵 中 高 相关 性 的 行 和 列 的 意义 又 是 什么 呢 ? 为 
了 了 解 这 一 点 ， 我 们 来 考虑 图 3-7 所 示 的 评分 矩阵 。 该 图 表示 了 一 个 7X6 的 评分 矩阵 ， 
有 7 个 用 户 和 6 个 物品 。 所 有 的 评分 都 取 自 集合 (1, 一 1, 0)， 这 些 分 值 分 别 表达 了 喜欢 、 
不 喜欢 和 中 立 三 个 观点 。 被 评分 的 物品 是 电影 ， 分 别 属 于 爱情 和 历史 两 个 分 类 。 其 中 一 个 
名 为 《Cleopatra》 的 电影 同时 属于 两 个 分 类 。 由 于 电影 分 类 的 特性 ， 用 户 也 在 评分 方面 表 
现 出 明显 的 倾向 性 。 人 例如， 用户 1 一 3 明显 喜欢 历史 电影 但 对 爱情 电影 持 中 立 态 度 。 用 户 4 
对 两 类 电影 都 喜欢 。 用 户 5 一 7 喜欢 爱情 电影 ， 但 不 喜欢 历史 电影 。 注 意 ， 该 矩阵 中 用 户 
和 物品 之 间 有 很 强 的 关联 性 ， 尽 管 两 类 电影 的 评分 看 起 来 是 相对 独立 的 。 因 此 ， 该 矩阵 可 
以 近似 用 2- 秩 因子 分 解 ， 如 图 3-7a Bras. EEU 是 一 个 7X2 的 和 矩阵， 表示 了 用 户 对 于 两 
个 分 类 的 倾向 性 , 是 一 个 6X2 的 矩阵 ， 表 示 了 电影 的 分 类 归属 。 换 言 之 ， 和 矩阵 U 提供 
了 列 空间 的 基 ， 和 矩阵 VV 提供 了 行 空间 的 基 。 例 如 ， 和 矩阵 上 表明 用 户 1 喜欢 历史 电影 ， 而 用 
户 4 两 类 电影 都 喜欢 。 类 似 的 推理 也 可 以 用 在 和 矩阵 V 的 行 上 。V 的 列 对 应 着 隐 向 量 ， 如 
图 3-6 所 示 。 与 SVD 不 同 ， 这 种 情况 下 的 隐 向 量 不 是 相互 正 交 的 。 

因子 分 解 对 应 的 剩余 矩阵 如 图 3-7b 所 示 。 剩 余 矩 阵 与 用 户 关 于 《Cleopatra》 的 评分 
有 关 ， 该 评分 并 不 符合 前 面 设 定好 的 模式 。 有 必要 指出 ， 在 真实 的 应 用 中 ， 因 子 和 矩阵 的 项 
多 为 实数 (而 非 整 数 )。 我 们 给 出 的 整 型 的 例子 只 是 为 了 使 例子 看 起 来 更 方便 。 而且, 一 
些 情况 下 也 无 法 对 因子 给 出 一 个 简洁 的 语义 表述 ， 尤 其 是 因子 同时 包含 正 负 值 的 时 候 。 例 
如 ， 如 果 我 们 将 图 3-7 的 U 和 Y 都 乘 以 一 1， 那 么 因子 分 解 仍 然 可 行 ， 但 解释 结果 就 变 得 
很 困难 。 虽 然 如 此 ， 不 论 是 否 能 给 出 一 个 语义 上 的 解释 , UVR 列 的 确 分 别 表示 用 户 
和 物品 之 间 的 联系 ， 它 们 可 以 被 看 作 是 隐 概 念 Clatent concept) 。 在 一 些 类 别 的 因子 分 解 
中 ， 如 非 负 和 矩阵 因子 分 解 ， 这 些 概 念 的 可 解释 性 在 更 大 程度 上 得 到 保留 。 

在 这 个 例子 中 ,和 矩阵 R 是 完全 确定 的 ， 因 此 从 缺失 值 估计 的 角度 来 说 ， 分 解 不 是 特别 
有 帮助 。 当 矩阵 R 没有 被 完全 确定 时 ,但 是 仍 然 可 以 分 别 健 壮 地 估计 潜在 因子 U 和 VV 的 
所 有 项 时 ， 该 方法 变 得 非常 有 用 。 对 于 低 秩 来 说 ， 数 据 稀 疏 时 上 述 可 能 仍然 存在 。 这 是 因 
为 不 需要 太 多 的 已 知 数据 来 估计 固有 宛 余 数据 的 潜在 因子 。 一 旦 估计 了 和 矩阵 U AV, wA 
评分 矩阵 可 以 一 次 估计 为 QVYT， 这 提供 了 所 有 缺失 的 评分 。 


3.6.3 基本 矩阵 分 解 原理 
在 基本 矩阵 分 解 模型 中 ,将 mXn EREEREER 近似 分 解 为 m Xk WEU 和 nnX&k WE 
EV, WFR: 
Ra UVT (3-13) 
U (或 V) 的 每 一 列 被 称 为 隐 向 量 或 隐 分 量 ， 而 U RY 的 每 一 行 被 称 为 潜在 因子 。U 的 


AF HE A ág at HE 71 








第 i 行 wi 被 称 为 用 户 因 子 ， 其 包含 与 用 户 i 对 评分 和 矩阵 中 的 & 个 概念 的 亲 和 度 (affinity) 
相对 应 的 个 值 。 例 如 ， 在 图 3-7 ATRL. witb eas i 对 评分 和 矩阵 中 历史 和 爱情 类 
型 的 亲 和 度 的 二 维 向 量 。 类 似 地 ,VV 的 每 行 如 被 称 为 物品 因子 ， 它 表示 第 i 个 物品 对 这 
个 概念 的 亲 和 度 。 在 图 3-7 中 ， 物 品 因 子 包 含 物品 对 两 类 电影 的 亲 和 度 。 

从 公式 (3-13) 可 以 看 出 ，R 中 的 每 个 评分 值 7i 可 以 近似 表示 为 第 i 个 用 户 因子 和 第 
j 个 物品 因子 的 点 积 : 

ry ~ Ti * (3-14) 

FRE Fa (was ue) Flop =Coj eve) 可 以 视 为 用 户 对 有 个 不 同 概念 的 亲 和 

E, MUAR (3-14) 的 直观 解释 如 下 : 


k k 
ry © lus .vs = 多 (用 户 ;对 概念 * 的 亲 和 度 ) X (物品 j 对 概念 s 的 亲 和 度 ) 
s=1 s=1 


在 图 3-7 的 情况 下 ， 上 述 求 和 的 两 个 概念 对 应 于 爱情 和 历史 类 别 。 因 此 ， 和 可 以 表示 
OF: 
rj (用 户 i 对 历史 的 亲 和 度 ) X (物品 7 了 对 历史 的 亲 和 和 度 ) 
十 (用 户 i 对 爱情 的 亲 和 度 ) X (物品 了 对 爱情 的 亲 和 度 ) 
需要 指出 的 是 ， 概 念 的 含义 通常 不 能 像 图 3- 7 中 那样 在 语义 上 解释 。 隐 向 量 通常 可 以 
是 正 值 和 负 值 的 任意 向 量 ， 因 此 变 得 难以 给 出 语义 解释 。 然 而 ， 它 确实 代表 了 评分 和 矩阵 中 
的 主要 相关 模式 ， 就 像 图 3- 6 的 隐 向 量 表示 几何 相关 模式 一 样 。 正 如 我 们 将 在 后 面 看 到 的 
那样 ， 某 些 形式 的 因子 分 解 (如 非 负 和 矩 阵 分 解 ) 被 明确 地 设计 来 保证 隐 向 量 有 更 高 的 可 解 
释 性 。 





.| Nero 


Julius Caesar 
Cleopatra 






el Pretty Woman 


= Sleepless In Seattle 
-le Casablanca 


p [>| =| ©] Sleepless In Seattle 
=| [=|=| =| Casablanca 














a) 2- 秩 和 矩阵 分 解 示例 
图 3-7 和 矩阵 因子 分 解 及 剩余 矩阵 示例 


各 种 矩阵 分 解 方法 之 间 的 关键 差异 出 现在 对 U 和 V 的 约束 (例如 潜在 向 量 的 正 交 性 或 
非 负 性 ) 和 目标 函数 的 性 质 ( 例 如， 最 小 化 Frobenius 范 数 或 最 大 化 似 然 性 在 生成 模型 中 
的 估计 )。 这 些 差异 在 矩阵 分 解 模 型 在 各 种 现实 世界 情景 中 的 可 用 性 中 起 着 关键 作用 。 


3. 6.4 无 约束 矩阵 分 解 


和 矩阵 分 解 的 最 基本 形式 是 无 约束 的 情况 ， 其 对 因子 矩阵 加 和 V 没有 约束 。 许 多 推荐 文 
献 将 无 约束 矩阵 分 解 当 作 奇 异 值 分 解 CSVD) 。 严 格 来 说 ， 这 在 技术 上 是 错误 的 ; Æ SVD 
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中 , UAV 的 列 必须 是 正 交 的 。 然 而 ， 在 文献 中 使 用 SVD 一 词 来 指 代 无 约束 和 矩阵 分 解 
法 9 是 相当 普遍 的 ， 这 导致 了 其 他 领域 的 实践 者 的 一 些 混 乱 。 在 本 章 中 ， 我们 将 修正 这 种 
不 正确 的 做 法 ， 以 不 同 的 方式 处 理 无 约束 矩阵 分 解 和 SVD。 本 节 将 讨论 无 约束 矩阵 分 解 ， 
后 面 的 小 节 将 讨论 SVD。 

在 讨论 不 完整 矩阵 的 分 解 之 前 ， 我 们 先 来 看 看 分 解 完整 矩阵 的 问题 。 如 何 确定 因子 甜 
阵 U AV, SCRE R 尽 可 能 接近 UVT? 可 以 针对 和 矩阵 U 和 VV 形式 化 优化 问题 ， 以 
实现 这 一 目标 : 

Minimize J = + || R— UV" ||? 


满足 : 
UV 上 无 约束 
这 里 ，|| + || CRANE OP Frobenius 范 数 ， 其 等 于 矩阵 项 的 平方 和 。 因 此 ， 目 标 函 数 
等 于 剩余 矩阵 (R 一 UV7T)〉 中 项 的 平方 和 。 目 标 函 数 越 小 ， 因 子 分 解 RUVT 的 质量 越 好 。 
这 个 目标 函数 可 以 被 看 作 是 一 个 三 次 损耗 函数 ， 它 通过 使 用 低 秩 分 解 来 量化 估计 和 矩阵 尺 的 
精度 损失 。 可 以 使 用 各 种 梯度 下 降 方法 为 该 分 解 提 供 最 优 解 。 
然而 ,在 具有 缺失 值 的 矩阵 的 上 下 文中 ， 只 有 R 的 值 的 子 集 是 已 知 的 。 因 此 ， 如 上 所 
述 ， 目 标 函 数 也 是 不 确定 的 。 毕 竟 ， 在 一 些 值 缺 失 的 情况 下 ， 人 们 无 法 计算 矩阵 的 Frobe- 
nius 范 数 ! 因此 ， 为 了 学 习 U 和 V, 目标 函数 需要 仅 基 于 观察 到 的 值 重 写 。 关 于 这 个 过 程 
的 很 好 的 部 分 是 ， 一旦 潜在 因子 U 和 VW 被 学 习 出 来 ， 整 个 评分 答 阵 可 以 使 用 UVT 被 一 次 
性 重建 出 来 。 
S S 表示 在 R 中 已 知 的 所 有 用 户 一 物品 对 (i, j) 构成 的 集合 。 其 中 ， iE {1…m) 是 
用 户 的 索引 ， jE {1…n) 是 物品 的 索引 。 因 此 ,已 知 的 用 户 一 物品 对 的 集合 S 定义 如 下 : 
S={Gf):r5 是 已 观测 的 } (3-15) 
Wn FR BE AT] AY WOKS AS E R EE R DS SE Be EU = Lis xe AV = L js Jaxa BY FE 
积 UYI， 则 也 可 以 预测 R 中 的 所 有 值 。 具体 地 ， 可 以 如 下 预测 矩阵 R 的 (i, j) 位 置 
的 值 : 


Py = Fa A (3+16) 
注意 左 侧 评级 上 的 “帽子 ”符号 即 回 施 、 表 示 它 是 预测 什 而 不 是 观测 值 。 指 定 条 目 i, j) 
的 观测 值 和 预测 值 之 间 的 差 由 ey 二 Gry — Fy) 二 (ry — ws + op) 给 出 。 然 后, 使 用 S 
中 的 已 知 值 和 修改 后 的 针对 不 完整 着 阵 的 目标 函数 做 如 下 计算 ， 








k 2 
Minimize J =} >} e =} ty = Shy, + ay 
GDES 2 GDES s=1 
满足 : 
UV LEAR 


k 
注意 ， 上 述 目标 函数 仅 在 S 中 的 已 知 值 上 对 误差 求 和 。 此 外 ， 每 个 项 (ry 一 Dus © o)? 
s=] 


© 在 SVDFe9 中 ， 基 向 量 也 被 称 为 奇异 向 量 ， 根 据 定 义 ， 该 向 量 必须 是 相互 正 交 的 。 
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是 (i, 7) WW EL A FW RT RE ae, KIB, us 和 wj; 是 未 知 变量 ,需要 学 习 以 
最 小 化 目标 函数 。 这 可 以 简单 地 用 梯度 下 降 方法 来 实现 。 因 此 ， 需 要 计算 相对 于 决策 变量 
Uia Ml vig AY J E: 





k 
Ə - >) (ri = >) us ° Ws ) = Vig) Wi © {lm},g E {1k} 
Ug es s=1 
= Š; (ey)— vy) Vi E (lm)},g € {1k} 
j: ES 
k 
2 = pP (ri — >) wis + vj )(— ug) VIE {ln},g E {1k} 
Vig GL DES s=1 
= >) Cy) ug) Vi E {ln},g € {1k} 
Li ES 


注意 ， 全 部 偏 导向 量 向 矩阵 U 和 VV 中 的 COn e ktn. k) 个 决策 变量 向 量 提供 梯度 。 令 3J 
表示 这 个 梯度 向 量 ， 且 令 VAR 表 示 避 和 中 (m。* 十 n* k) 决策 变量 的 向 量 ， 则 可 以 用 
VAR=VAR~a+ 哆 更 新 整个 决策 变量 向 量 。 这 里 ，x>>0 是 步 长 ， 可 以 使 用 非 线 性 规划 中 
的 标准 数值 方法 来 选择 "5 。 在 许多 情况 下 ， 步 长 设置 为 很 小 的 常数 ， 迭 代 一 直 执行 到 收 
敛 。 上 述 方法 被 称 为 梯度 下 降 。 梯 度 下 降 的 算法 框架 如 图 3-8 所 示 。 值 得 注意 的 是 ， 中 间 
变量 wz 和 wj 用 于 确保 对 U 和 VV 中 条 目的 所 有 更 新 都 同时 执行 。 








Algorithm GD(Ratings Matrix: R, Learning Rate: a) 
begin 
Randomly initialize matrices U and V; 
S = {(i, j) : rij is observed}; 
while not(convergence) do 
begin 
Compute each error e;; € S as the observed entries of R — U Vv": 
for each user-component pair (i,q) do us, = uig +a- Diiti jes ei Vja 
for each item-component pair (j, q) do wg = vjgta-y> 
for each user-component pair (i,q) do uig = uy; 
for each item-component pair (j, q) do vj, = vt: 
Check convergence condition; 
end 
end 


(ES ij ` Wig 











Al 3-8 梯度 下 降 


还 可 以 使 用 矩阵 表示 来 执行 图 3- 8 中 的 更 新 。 第 一 步 ， 计 算 一 个 误差 矩阵 E 一 R 一 
UVT, JEP E WRA OORTE S 中 的 值 ) 被 设置 为 0。 注 意 , EW RINE, R [8 
在 计算 值 G, DESH ey 的 值 时 有 意义 ， 并 且 使 用 稀 朴 数据 结构 存储 矩阵 。 更 新 可 以 如 下 
HA: 














U<U + akV 
V<=V+ cE'U 
这 些 更 新 可 以 执行 到 收敛 ， 同 时 注意 使 用 中 间 变 量 同时 更 新 两 个 矩阵 中 的 所 有 值 〈 如 
图 3-8 所 示 ) 。 
3.6.4.1 随机 梯度 下 降 
上 述 方 法 被 称 为 批量 更 新 方法 。 一 个 重要 的 观察 是 ， 更 新 是 评分 矩阵 的 已 知 值 的 错误 
的 线性 函数 。 可 以 以 其 他 方式 通过 将 更 新 分 解 为 与 单个 已 知 值 〈 而 非 所 有 已 知 值 ) 的 错误 
相关 联 的 较 小 分 量 来 执行 更 新 。 根 据 ( 随 机 选择 的 ) 已 知 值 CG. j) 中 的 误差 .该 更 新 可 
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以 随机 地 近似 如 下 : 
Ae SS. [SA Ji) 的 贡献 量 Vg © (1k) 
i a [BJ 的 贡献 量 Vae (1k) 


可 以 一 次 〈 按 随机 顺序 ) 循环 遍历 R 中 的 已 知 值 ， 并 仅 更 新 因子 矩阵 中 的 2 个 值 
的 相关 集合 ， 而 不 是 因子 矩阵 中 的 所 有 One 十 xn， 有) 个 值 。 在 这 种 情况 下 ， 特 定 于 值 
Gi, j) ES 的 2. 上 个 更 新 如 下 : 
Us Euy Tar ey * via Vg E flek} 
Vjq Vig Fa * ej * tig VQ E {lek} 
对 于 每 个 已 知 的 评分 rjo EARE ej KES U 的 行 i 中 的 & MAM V 的 行 PA MB. 
THER. ey e vj 是 相 对 于 ui 的 偏 导数 的 分 量 ， 其 特定 于 单个 值 (i, ;)。 为 了 提高 效率 ，k 
个 值 中 的 每 一 个 都 可 以 用 向 量化 的 形式 同时 更 新 。 令 五 表示 U 的 第 i T GRI V R j 
行 。 那 么 ， 上 述 更 新 可 以 用 A 维 向 量化 形式 重 写 如 下 : 
ui Uji + aeij Uj 
USF v; t deij Ui 
我 们 遍历 所 有 已 知 值 多 次 〈 即 多 次 迭代 ) 直到 达到 收敛 。 这 种 方法 被 称 为 随机 梯度 下 
降 ， 其 中 梯度 用 矩阵 中 单个 随机 选择 的 值 的 误差 来 近似 。 随 机 梯度 下 降 法 的 伪 码 如 图 3- 9 
所 示 。 值 得 注意 的 是 ， 临 时 变量 ug 和 wv 坟 用 于 在 更 新 过 程 中 存储 中 间 结 果 ， 以 使 得 2， 
个 更 新 不 会 相互 影响 。 这 是 一 个 通用 的 方法 ， 尽 管 我 们 可 能 不 会 明确 说 明 ， 但 它 应 该 在 本 
书 中 讨论 的 所 有 面向 群 组 的 更 新 中 使 用 。 






Algorithm SGD(Ratings Matrix: R, Learning Rate: a) 
begin 
Randomly initialize matrices U and V; 
S = {(i,j) : rij is observed}; 
while not(convergence) do 
begin 
Randomly shuffle observed entries in S; 
for each (i, j) € S in shuffled order do 
begin 
eg Taj De itsa 
for each q € {1...k} do ut, © lig + O ei “Vigi 
for each q € {1...k} do vi = vjg +Q- ey Uig; 
for each q € {1...k} do wig = uj, and vg = vj; 
end 
Check convergence condition; 
en 
end 
















图 3-9 随机 梯度 下 降 


实际 上 ， 与 批 次 更 新 方法 相 比 ， 随 机 梯度 下 降 法 获得 的 收敛 速度 更 快 ， 尽 管 后 者 的 收 
敛 性 更 加 平滑 。 这 是 因为 在 后 一 种 情况 下 ， 使 用 所 有 已 知 值 而 非 单个 随机 选择 的 值 ，U 和 
V 的 值 被 同时 更 新 。 随 机 梯度 下 降 的 这 种 噪声 近似 有 时 会 影响 解 的 质量 和 收敛 的 平滑 度 。 
通常 ， 当 数据 大 小 非常 大 并 且 计 算 时 间 是 主要 瓶颈 时 ， 随 机 梯度 下 降 更 好 。 其 他 “ 折 中 ” 
方法 会 使 用 更 小 的 批 次 ， 用 已 知 值 的 子 集 来 构建 更 新 。 这 些 不 同 的 方法 提供 了 解决 方案 质 
量 和 计算 效率 之 间 的 不 同 权衡 。 
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当 循 环 通过 矩阵 中 已 知 值 来 更 新 因子 矩阵 时 ， 最 终 将 达到 收敛 。 全 局 方法 可 以 保证 收 
XN, 虽然 它 通常 比 局 部 的 方法 慢 。 步 长 MFT) 通常 设置 为 较 小 的 常数 ， 如 a= 
0. 005。 避 免 局 部 最 小 化 和 加 速 收 和 敛 的 更 有 效 的 方法 是 使 用 bold driver 算法 68'217] ， 在 每 
次 迭代 中 自 适应 地 选择 a。 原 则 上 ， 也 可 以 针对 不 同 的 因子 使 用 不 同 的 步 长 53。 关于 一 
些 模型 的 一 个 有 趣 的 观察 是 ， 执 行 它们 太 多 次 直到 收敛 有 时 可 能 轻微 恶化 未 知 值 估计 结果 
质量 。 因 此 ， 有 时 候 我 们 会 建议 不 要 过 分 严格 地 设 定 收敛 标准 。 

这 些 潜 在 因子 模型 的 另 一 个 问题 是 初始 化 。 例 如 ， 可 以 将 (一 1，1) 中 的 因子 矩阵 初 
始 化 为 很 小 的 数 。 但 是 ， 初 始 化 的 选择 可 能 会 影响 最 终 的 结果 质量 。 可 以 使 用 一 些 启发 式 
来 提高 质量 ， 例 如 可 以 使 用 本 节 稍 后 讨论 的 一 些 简单 的 基于 SVD 的 启发 式 方法 来 创建 一 
个 近似 初始 化 。 

3.6.4.2 正则 化 

当 评 分 矩阵 尺 稀 朴 且 已 知 值 相对 较 少 时 ， 会 出 现 这 种 方法 面临 的 一 个 主要 问题 。 该 情 
况 在 实际 应 用 中 几乎 总 是 出 现 。 在 这 种 情况 下 ， 已 知 评分 构成 的 集合 S 很 小 ， 可 能 导致 过 
拟 合 。 注 意 ， 当 训练 数据 有 限时 ， 过 拟 合 也 是 分 类 中 的 常见 问题 。 解 决 此 问题 的 一 个 常见 
方法 是 使 用 正则 化 。 正 则 化 减 小 了 模型 的 过 拟 合 倾向 ， 以 向 模型 中 引入 偏差 B 为 代价 。 

在 正则 化 中 ,该 想法 是 要 阻止 U 和 VV 中 出 现 非常 大 的 系数 值 ， 以 保证 稳定 性 。 因 此 ， 


将 正则 化 项 分 (UI? 十 |V 1 2) 加 到 目标 函数 中 ， 其 中 1 之 0 是 正则 化 参数 ，| || ? 表 
IREE CEF) Frobenius 范 数 。 其 基本 思想 是 ， 通 过 对 大 系数 施加 惩罚 来 创建 对 较 简 
单 的 解决 方案 有 倾向 性 的 偏差 。 这 是 一 种 用 于 许多 形式 的 分 类 和 回归 的 标准 方法 ， 也 可 以 


用 于 协同 过 滤 。 参 数 4 总 是 非 负 的 ， 它 控制 正则 化 项 的 权重 。 本 节 稍 后 将 介绍 4 的 选择 
方法 。 


k 
如 上 所 述 ,假设 ei = (ry 一 Du, + vi ) 表示 G, 站 ES 的 已 知 值 和 预测 值 之 间 的 差 
s=1 
异 。 正 则 化 目标 函数 如 下 : 


m k k 
Minimize J e SP e? +45 ye +4 Dat 


GES i=l s=1 j=1s 


=} D (r Su so) +45 ye pa D 


DES j=ls= 
对 于 每 个 决策 变量 ， sete: he alan es 区 别 只 在 于 
在 上 述 两 种 情况 下 会 分 别 向 梯度 中 增加 Xuiy FA Av jg TH. 





k 
=) (rg — Sey tae, a tg) Phe VE Ad ogee Lk) 
5 一 1 


ig ji ES 


Il 


S, (ej (= vg) + Awig Yi E {Lem} og € {10k} 


j: j)ES 





aJ = 5 (a= Yu ° Ujs )(— va) + Avie Vi € {1- “Nn},g E {1k} 


ilij ES 


I 


> Cej )(— uy) + Avig Wj E {leen}, E {11k} 


is( DES 


D9 有 关 偏 差 方 差 折 中 的 讨论 ， 请 参阅 第 6 章 。 
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执行 梯度 下 降 的 步骤 与 没有 正则 化 的 情况 类 似 。 可 以 使 用 批 次 或 局 部 更 新 。 例 如 ， 考 虑 全 
局 更 新 方法 。 令 对 应 于 U 和 VV 中 的 值 的 (me kins k) 决策 变量 的 向 量 由 VAR 表 示 ， 并 
将 相应 的 梯度 向 量 表示 为 YJ]。 然 后 ， 可 以 将 整个 决策 变量 向 量 更 新 为 VAR<= VAR 一 a。 
VJ ,为 了 有 效 地 实现 这 一 点 ， 可 以 通过 修改 图 3- 8 中 的 〈 非 正则 化 ) 更 新 使 之 包含 正则 化 
项 。 修 改 后 的 更 新 可 以 写成 如 下 形式 : 
Uig Suq + a( D eij * Vig —A* Ug) Yq E {1k} 
PGES 


vig =Vjq + a( SD eij * Ug —A* vg) Vg E {lk} 
ini ES 


更 新 可 以 执行 到 收 僵 。 还 可 以 根据 m Xn WREE E= [e] BAREEN, Hep E KW 
未 知 值 被 置 为 0: 

U&U(1— a * à) +aEV 

V&V (l —a + à) +aETU 
注意 ， 乘 法 项 (1 一 a* 4) 缩小 了 每 一 步 的 参数 ， 这 是 正则 化 的 结果 。 如 果 用 矩阵 形式 更 
新 ， 则 必须 小 心计 算 并 使 用 E 的 稀 玖 表示 。 仅 对 已 知 值 G, j) ESH ey KEHE H 
玖 数据 结构 存储 E 是 非常 重要 的 。 

在 局 部 更 新 〈 即 随机 梯度 下 降 ) 的 情况 下 ， 仅 对 于 随机 选择 的 已 知 值 G, 7)( 而 非 所 有 

值 ) 的 误差 计算 偏 导 数 。 可 以 以 随机 顺序 对 每 个 已 知 值 (i, 力 ES 执行 以 下 2 "个 更 新 ; 
Uig uig t+ alex * Vig —A* Ug) Vg E {lek} 
Vig vjg Falei * Wig —A* vig) Yq E {lek} 
为 了 提升 效率 ， 这 些 更 新 以 向 量化 形式 通过 用 户 i 和 物品 ;7 的 & 维 因子 向 量 如 下 执行 : 
uru; + alex; 页 一 和 下) 
Uj =; + alex ui —AV;) 
这 些 更 新 在 图 3-9 所 述 算 法 的 框架 内 使 用 。 值 得 注意 的 是 ， 局 部 更 新 与 全 局 更 新 在 如 何 处 
理 正 则 化 项 上 并 不 完全 相同 9 。 这 是 因为 更 新 的 正则 化 分 量 (Aua 和 一 Mu) 在 所 有 已 知 
值 的 局 部 更 新 周期 中 被 多 次 使 用 ; 对 行 i 中 的 每 个 已 知 值 ， 都 要 对 好 执行 更 新 ， 且 对 列 j 
中 的 每 个 已 知 值 ， 要 对 vis 执行 更 新 。 此 外 ,不同 的 行 和 列 可 以 具有 不 同 数量 的 已 知 值 ， 
这 可 以 进一步 影响 各 种 用 户 和 物品 因子 的 正则 化 的 相对 水 平 。 在 向 量化 全 局 方法 中 ， 由 于 
每 个 值 wig 和 wjs 仅 更 新 一 次 ， 所 以 正则 化 会 更 加 平缓 均匀 地 进行 。 不 过 ， 由 于 在 参数 调整 
期 间 自 适应 选择 和 4， 所 以 局 部 更 新 方法 将 自动 选择 比 全 局 方法 更 小 的 4 值 。 从 启发 式 的 角 
度 来 看 ， 这 两 种 方法 提供 了 大 致 相似 的 结果 ， 但 在 质量 和 效率 之 间 有 不 同 的 权衡 。 

WAT ATE. a>O 表示 步 长 ,4 二 0 是 正则 化 参数 。 例 如 ， 在 Netflix Prize 数据 集 的 情 
况 下 ， 已 知 取 小 常数 值 〈 例 如 0.005) 时 能 够 很 好 地 工作 。 或 者 ， 可 以 使 用 bold driver 
算法 558'21] 在 每 次 迭代 中 自 适应 地 选择 a， 以 避免 局 部 最 优 并 加 速 收敛 。 剩 下 的 就 是 要 讨 
论 如 何 选 择 正则 化 参数 *。 最 简单 的 方法 是 在 评分 矩阵 中 保留 已 知 值 的 一 小 部 分 不 用 于 训 
练 模型 。 用 被 保留 的 数据 测试 模型 的 预测 精度 ， 可 以 测试 不 同 的 4 值 ， 并 选取 使 精度 最 高 
的 4 值 。 如 果 有 必要 ， 在 选择 了 4 值 之 后 ， 可 以 将 模型 在 整个 已 知 数据 上 重新 训练 (没有 





O EHHE MA Eu u aleju Au /n MoA aleju ATni) AE, nl 表示 用 户 i 的 已 知 
FORE., Tn 表示 对 于 项 j 的 已 知 评分 的 数量 。 这 里 ， 各 用 户 / 项 因子 的 正则 化 项 在 各 用 户 / 项 的 相应 已 
知 项 之 间 被 平均 分 配 。 实 际 中 常用 的 是 本 章 中 讨论 的 (更 简单 ) 启发 式 更 新 规则 。 我 们 选择 在 本 章 中 使 用 这 
些 (更 简单 的 ) 规则 来 与 推荐 系统 的 研究 文献 保持 一 致 。 通 过 适当 的 参数 调整 ， 在 使 用 更 简单 的 更 新 规则 的 
情况 下 ,4 将 自动 调整 为 较 小 的 值 。 
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保留 值 ) 。 这 种 参数 调整 方法 被 称 为 hold- out 方法 。 更 复杂 的 方法 是 使 用 交叉 验证 方法 。 
本 书 第 7 章 关 于 评估 推荐 系统 的 部 分 讨论 了 这 种 方法 。 为 了 获得 更 好 的 结果 ， 不 同 的 正则 
化 参数 入 和 Xz 可 以 用 于 用 户 因子 和 物品 因子 。 

通常 ， 为 了 确定 最 优 值 ， 在 hold- out 方法 中 尝试 不 同 的 4 值 可 能 导致 较 高 的 代价 。 这 
限制 了 尝试 4 的 许多 选择 的 能 力 ， 因 此 的 值 通常 难以 很 好 地 优化 。 文 献 [518] 中 提出 
的 一 种 方法 ， 将 矩阵 U AV 的 值 作为 参数 ， 将 正则 化 参数 作为 超 参数 进行 处 理 ， 并 基于 概率 
方法 一 起 优化 这 些 参数 。 文 献 [518] 提出 了 一 种 吉 布 斯 采样 法 来 同时 学 习 参 数 和 超 参 数 。 

3.6.4.3 增 量 式 隐 分 量 训练 

这 些 训练 方法 的 一 个 变 体 是 增 量 式 地 训练 隐 分 量 。 换 名 话说， 我 们 首先 仅 对 g=1 执 
行 更 新 uy 二 uy taley * Uj AÀ” uq) 和 vig 二 vjg 十 alej * uig 一 和 A。vig)。 该 过 程 对 于 S 中 
的 已 知 值 和 4 王 1 往复 执行 直到 收敛 。 因 此 ， 我 们 可 以 分 别 学 习 U 和 VW BH AV). 
然后 ， 从 R (已 知 值 ) 中 减 去 mXn IpO ERU V1 。 随 后 ,使 用 (剩余 ) 评分 矩阵 对 
gq 二 2 执行 更 新 以 分 别 学 习 U 和 VV 的 第 二 列 Us 和 Vs。 然 后， 从 R 中 减 去 Us V. RIA 
阵 不 断 重复 该 过 程 ， 直 到 g 二 k。 所 得 到 的 结果 提供 了 所 需 的 和 矩阵 因子 分 解 ， 因 为 整体 秩 & 
分 解 可 以 表示 为 上 个 秩 1 因子 分 解 的 总 和 : 


k 
R= UY? = 5), 9," (3-17) 


q=1 

该 过 程 的 描述 如 图 3- 10 Pras. APA RES BM TT He BY) ARS BY eT tte EE I 
的 差异 来 理解 。 增 量 分 量 训练 循环 遍历 最 外 层 循环 中 的 g 值 ， 并 在 内 循环 中 循环 遍历 已 知 
值 ， 以 达到 每 个 g 值 的 收敛 (SULA 3- 10) 。 之 前 的 方法 在 外 层 循 环 中 遍历 已 知 值 ， 在 内 层 
循环 中 遍历 g， 直 到 收敛 (参见 图 3- 9) 。 此 外 ， 增 量 方法 需要 调整 外 循环 的 两 次 执行 之 间 的 
评分 矩阵 。 因 为 一 次 优化 的 变量 数 较 少 ， 这 种 方法 会 使 得 每 个 分 量 的 收敛 更 快 、 更 稳定 。 








Algorithm Component Wise-SGD(Ratings Matrix: R, Learning Rate: a) 
begin 
Randomly initialize matrices U and V; 
S ={(i,j) : ri; is observed}; 
for q = 1 tok do 
begin 
while not(convergence) do 
begin 
Randomly shuffle observed entries in S; 
for each (i,j) € S in shuffled order do 
begin 
ij = Nig = aUai 
Uy, = tag + a- (eij "Vjq — A+ ttig); 
Ujg = Vg +Q: (ei * Uig — A vig) 
Uig = th; Vjg = Ce 
end 
Check convergence condition; 
end 
{ Element-wise implementation of R = R—U, V; } 
for each (i,j) E€ S do Tij © Tij — UigUjq; 
end 
end 





图 3-10 面向 分 量 的 随机 梯度 下 降 


o AMIR Ay 的 内 积 由 标量 工 7y 给 出 ， 而 外 积 由 秩 LM oy 7 给 出 。 此 外 ， 计 算 外 积 时 三 和 yY 不 需要 大 
小 相同 。 
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值得 注意 的 是 ， 梯 度 下 降 的 不 同 策略 将 导致 具有 不 同性 质 的 解 。 这 种 特殊 形式 的 增 量 
式 训练 将 导致 较 早 的 隐 分 量 成 为 主要 分 量 ， 这 与 SVD 类 似 。 然 而 , U RV) 中 得 到 的 列 
可 能 不 相互 正 交 。 也 可 以 通过 使 用 g>1 的 投影 梯度 下 降 来 强制 (和 V) 的 列 的 相互 正 交 
性 。 具 体 来 说 ， 列 U。( 或 V,〉 中 的 变量 对 应 的 梯度 向 量 被 投影 在 当前 得 到 的 U (或 V) 的 
(gq 一 1) 列 的 正 交 方 向 。 

3.6.4.4 交替 最 小 二 乘 和 坐标 下 降 

随机 梯度 法 是 有 效 的 优化 方法 。 另 一 方面 ， 其 对 于 初始 化 和 选择 步 长 的 方式 非常 敏 
感 。 除 此 之 外 的 优化 方法 还 有 使 用 交替 最 小 二 乘法 (ALS)[268,577] ， 该 方法 通常 更 稳定 ， 
基本 思想 是 从 初始 的 矩阵 加 和 Y 开始 按 下 述 方法 迭代 : 

D 国定 避 不 变 ， 通 过 将 问题 转化 为 最 小 二 乘 回归 问题 来 处 理 V A n 行 中 的 每 一 行 。 
Ra See aT ae 20 表示 VV 的 第 j 行为 了 确定 最 优 癌 


量 页， 我 们 希望 最 小 化 >) (ri 一 Duon), 这 是 vi…wvis 的 最 小 二 乘 回归 问题 。 


GDES 
zz 被 视 为 常数 ,而 vj :wo 被 视 为 优化 变量 。 因此 ,可 以 用 最 小 二 乘 回归 确定 第 7 个 物 
myo; Wk 个 潜在 因子 分 量 。 总 共 需 要 执行 n 个 最 小 二 乘 问题 ,每 个 最 小 二 乘 问题 都 有 上 
个 变量 。 因 为 每 个 物品 的 最 小 二 乘 问题 是 独立 的 ,所 以 此 步骤 可 以 容易 地 并 行 化 。 
2) 保 持 Y 固定 ,通过 将 问题 转化 为 最 小 二 乘 回 归 问 题 来 处 理 U 的 m 行 中 的 每 一 - 行 。 在 
每 种 情况 下 ,只 能 使 用 S oll i 乘 模 型 。 令 u: RR U 的 第 i 行 ,为 了 


确定 最 优 向 量 去 ,我们 希望 最 小 化 2 a- Sees) 该 问题 是 ua ue LAR) 
HG PES 

SFE EVA BM. vj vpn, RAMA BBA. M ua . 必 被 视 为 优化 变量 。 因此 ， 可 以 用 最 小 二 

乘 回 归 确 定 第 i 个 用 户 的 & 个 潜在 因子 分 量 。 总 共和 需 要 执行 m 个 最 小 二 乘 问题 ， 每 个 最 小 

二 乘 间 题 有 个 变量 。 因 为 每 个 用 户 的 最 小 二 乘 问 题 是 独立 的 ， 所 以 此 步骤 可 以 容易 地 并 

行 化 。 

这 两 个 步骤 闪 代 直到 收敛 。 当 在 目标 函数 中 使 用 正则 化 时 ， 这 相当 于 在 最 小 二 乘法 中 
使 用 Tikhonov 正则 化 。 正 则 化 参数 之 0 的 值 可 以 在 所 有 独立 最 小 二 乘 问题 中 固定 不 
变 ， 也 可 以 选择 不 同 值 。 在 任 一 种 情况 下 ， 可 能 需要 使 用 hold-out 或 交叉 验证 方法 来 确定 
4 的 最 优 值 。 第 4 章 4.4.5 节 简 要 讨论 了 利用 Tikhonov 正则 化 的 线性 回归 。 尽 管 第 4 章 中 
的 线性 回归 讨论 是 在 基于 内 容 的 模型 的 背景 下 的 ， 但 基本 回归 方法 在 不 同情 境 下 是 通 
用 的 。 

有 趣 的 是 ， 加 权 版 本 ALS 特别 适合 隐 式 反馈 ， 其 假定 和 矩阵 完全 已 知 且 包 含 许多 零 值 。 
此 外 ， 在 这 些 情况 中 ， 非 零 项 通常 权重 更 高 ， 在 这 种 情况 下 ， 随机 梯度 下 降 的 开销 变 得 太 
高 。 当 大 多 数值 为 零 时 ， 可 以 使 用 一 些 技巧 来 使 加 权 ALS 更 加 高 效 。 具 体 请 参考 文献 [260]。 

ALS 的 缺点 是 它 的 效率 不 如 大 规模 已 知 评分 情况 下 的 随机 梯度 下 降 。 其 他 方法 ， 如 
坐标 下 降 ， 可 以 有 效 地 在 效率 和 稳定 性 之 间 做 出 权衡 [ss0] 。 在 坐标 下 降 中 ， 固 定 变 量子 集 
(与 ALS 相同 ) 的 方法 被 运用 到 极限 。 这 里 ， 除 了 在 两 个 矩阵 之 一 中 的 某 个 特定 值 〈 或 从 
标 ), U 和 Y 中 的 所 有 其 他 值 都 是 固定 的 ， 可 以 使 用 3. 6.4. 2 节 的 目标 函数 进行 优化 。 所 
得 到 的 优化 解 为 封闭 解 ， 因 为 它 是 单个 变量 的 二 次 目标 函数 。w (或 wa) 的 对 应 值 可 以 
用 下 述 两 个 更 新 之 一 来 有 效 地 确定 : 


(ey + Uig U jq ) Vjq 
= ie +4, PES 


p AE > vi, 
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oe Cég T tyty) tta 


vg LEES 
1 A+ > u, 
ii(iJ)ES 

这 里 ，S 表示 评分 矩阵 中 已 知 值 的 集合 ，ei 二 ri rj ERAH G, j) 的 预测 误差 。 利 用 上 
述 更 新 方法 对 U 和 V 中 的 (m 十 n)， 上 个 参数 循环 ， 直 到 收敛 。 与 梯度 下 降 和 增 量 分 量 训 
练 的 结合 类 似 ， 也 可 以 将 坐标 下 降 与 增 量 隐 分 量 训练 相 结 合 (参见 3. 6. 4. 3 节 )。 

3.6.4.5 合并 用 户 和 物品 偏差 

PaterekL4"3] 引 入 了 无 约束 模型 的 变形 ， 用 以 增加 可 以 学 习 用 户 和 物品 偏差 的 变量 。 假 
设 为 了 方便 讨论 ， 评 分 和 矩阵 均 经 过 均值 中 心 化 处 理 (通过 从 作为 预 处 理 步骤 的 所 有 值 中 减 
去 整个 评分 矩阵 的 全 局 平均 值 y)。 在 使 用 潜在 因子 模型 预测 值 之 后 ， 再 将 u 值 作 为 后 处 理 
步骤 加 回 到 预测 值 。 因 此 在 本 节 中 我 们 将 简单 地 假设 评分 矩阵 尺 已 经 以 这 种 方式 居中 ， 并 
忽略 预 处 理 和 后 处 理 步 又 。 

与 每 个 用 户 i 相对 应 的 ， 有 变量 0;， 它 表示 用 户 评分 值 的 一 般 偏差 。 例 如 ， 如 果 用 户 

一 个 慷慨 的 人 ， 其 倾向 于 高 度 评价 所 有 物品 ， 那 么 变量 o 是 一 个 正 数 量 。 反 之 ， 对 于 
大 多 数 物品 的 负面 评价 的 音 冀 鬼 ，o; 的 值 将 是 负数 。 类 似 地 ， 变 量 p; 表示 物品 j 的 评级 
中 的 偏差 。 非 常 受 欢 迎 的 物品 (例如 卖座 电影 ， 的 pj; 倾向 于 具有 较 大 的 〈 正 ) 值 ， 而 不 
受 大 多 数 人 欢迎 的 物品 的 p; 将 具有 负 值 。 因 子 模型 的 工作 是 以 数据 驱动 的 方式 学 习 o 和 
p; 的 值 。 对 原始 潜在 因子 模型 的 主要 变化 是 G, j) 评分 的 一 部 分 由 o +p; 解释， 其余 
部 分 由 潜在 因子 矩阵 的 乘积 UYI 的 (Ci，7 MR. AE, G. j) 的 评分 的 预测 值 由 下 式 
给 出 : 


Wb (3- 18) 
k 

ey = rij — fj =r = PE Duis * Ujs (3-19) 
5 一 ] 


HEE. o Mp; 也 是 需要 用 潜在 因子 矩阵 U AV 通过 数据 驱动 方式 一 起 学 习 的 变量 。 那 么 ， 
最 小 化 目标 函数 J 可 以 通过 聚集 评分 矩阵 的 已 知 值 〈 即 集合 S) 的 平方 误差 来 形式 化 : 


=O th Da AS ag ASA Sy 


ij)ES 
4S -asa jun) ET +5 et Lait D3) 
i j)ES s= j s i= j= 


事实 证 明 ， 这 个 问题 与 无 约束 矩阵 因子 分 解 只 有 微小 的 不 同 。 我 们 可 以 增 大 因子 矩阵 以 合 
并 这 些 偏差 变量 ， 而 不 是 为 用 户 和 物品 分 别 设置 偏差 变量 o 和 pp;。 我 们 需要 为 每 个 因子 
EMU AV 添加 两 个 附加 列 ， 以 分 别 创建 大 小 为 mwX (k+2) 和 nnX(k 十 2) 的 更 大 的 因子 
矩阵。 每 个 因子 矩阵 的 最 后 两 列 是 特殊 的 ， 因 为 它们 对 应 于 偏 置 分 量 。 具 体 来 说 ， 我 
们 有 : 

ui = 0; Wi E {1em} 

uit = 1Vi E {lem} 

vj = 1V7 E {lrn} 

vj = P; Yj Eilen} 


[106 | 


80 #3 








注意 ， 条 件 uit =l A vaen =] 是 因子 矩阵 的 约束 。 换 言 之 ， 我 们 需要 将 用 户 因子 矩阵 
的 最 后 一 列 全 部 约束 为 1， 而 将 物品 因子 短 阵 的 倒数 第 二 列 限 制 为 全 1。 上 述 情况 如 图 3-11 
所 示 。 进 而 ， 修 改 后 的 扩展 因子 矩阵 的 优化 问题 如 下 : 


k+2 m 


Minimize J = + a = Date +)! += AS} (Sud +S) 


pee: 
满足 ; 
U 的 第 上 十 2 列 只 包含 1 
[107] V 的 第 十 1 列 只 包含 1 


k+2 





物品 偏差 
用 户 偏差 


图 3-11 在 潜在 因子 模型 中 嵌入 用 户 和 物品 偏差 


人 ee tend 
情况 相同 ， 除 了 对 因子 有 一 点 限制 。 另 一 个 变化 是 因子 矩阵 被 扩展 来 增加 用 户 和 物品 的 偏 
差 变量 。 由 于 问题 定义 只 ae 那么 只 需要 对 梯度 下 降 法 做 出 相应 的 修改 。 初 
始 化 方面 , Y 的 第 (CR 二 1) WAU 的 第 (24+2) 列 被 设置 为 全 1。 可 以 使 用 与 非 约 束 情 况 
下 完全 相同 的 《局 部 ) 更 新 规则 ， 除 了 VV 的 第 AHD 列 和 U 的 第 (R 十 2) 列 的 两 个 扰动 
项 在 每 次 更 新 后 被 重 置 为 固定 值 〈 或 根本 不 更 新 )。 可 以 通过 循环 遍历 所 有 CG, j) ESK 
执行 以 下 更 新 : 

Ug Ug Falei * Uq —À * Ug) Vg E {1k +2} 

Vja Via Falei; * Ug —A* Vig) Yq E (lek + 2} 

HU PERAD WV 中 第 (k 十 1) 列 的 扰动 项 重 置 为 1 
这 些 更 新 作为 一 组 同时 执行 。 也 可 以 使 用 略微 变化 过 的 交替 最 小 二 乘法 (SILA M11). 
上 述 讨 论 对 于 每 种 类 型 的 变量 使 用 相同 的 正则 化 参数 和 学 习 率 。 有 时 对 用 户 偏差 、 物 品 偏 
差 和 因子 变量 使 用 不 同 的 正则 化 参数 和 学 习 率 会 更 好 [586] ， 这 可 以 通过 简单 修改 对 上 述 更 
新 来 实现 。 

一 个 自然 产生 的 问题 是 为 什么 这 种 形式 要 比 无 约束 矩阵 分 解 更 好 。 因 子 和 矩阵 的 最 后 两 
列 的 约束 条 件 的 增加 只 能 降低 全 局 解 的 质量 ， 因 为 原本 的 方法 是 在 更 小 的 空间 中 寻求 优化 
解 。 然 而 ， 在 许多 情况 下 ， 增 加 这 些 约束 会 减 小 过 拟 合 。 换 句 话 说 ， 虽然 在 已 知 值 上 的 错 
误 率 可 能 更 高 ， 但 添加 这 种 直观 约束 通常 可 以 提高 学 习 算 法 在 未 知 值 上 的 通用 性 。 当 用 户 
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或 物品 的 已 知 评分 数量 较 少时 ， 这 一 点 尤其 有 用 [3 。 偏 差 变量 为 用 户 或 物品 的 全 局 评分 
添加 一 个 分 量 ， 当 可 用 数据 有 限时 ， 这 种 全 局 属性 很 有 用 。 我 们 用 一 个 具体 的 例子 来 说 明 
这 一 点 。 考 虑 用 户 仅 为 少量 (1 或 2 个 ) 物品 提供 评分 的 情况 。 在 这 种 情况 下 ， 许 多 推荐 
算法 ， 例 如 基于 近邻 的 方法 ， 将 不 能 为 用 户 提供 可 靠 的 预测 。 另 一 方面 ， 物 品 偏差 变量 的 
( 非 个 性 化 〉 预 测 则 能 够 给 出 合理 的 预测 。 毕 竞 ， 如 果 某 个 电影 在 全 球 范围 内 票房 大 卖 ， 
那么 相关 用 户 也 更 有 可 能 喜欢 它 。 偏 差 变 量 反 映 了 这 一 事实 ， 并 将 其 纳入 学 习 算 法 中 。 

FXE, 已 经 有 研究 显示 仅 使 用 偏差 变量 ( 即 有 二 0) 就 可 以 提供 相当 好 的 评估 预 
测 073"310,312] 。 这 是 从 Netflix Prize 比赛 中 获得 的 重要 实践 经 验 之 一 [73]， 

“在 众多 新 的 算法 贡献 中 ， 我 想 强调 一 点 一 一 这 些 谦卑 的 基准 预测 变量 (或 

偏差 ) 对 数据 的 主要 影响 。 虽 然 相 关 工 作 主 要 集中 在 更 复杂 的 算法 方面 ， 但 我 们 

发 现 ， 对 这 些 主要 影响 量 的 准确 处 理 可 能 至 少 与 模型 方面 的 突破 一 样 重要 。?” 
这 意味 着 评分 很 大 程度 上 可 以 通过 用 户 的 慷慨 程度 和 物品 的 受 欢 迎 程度 来 解释 ， 而 非 用 户 
对 物品 的 具体 的 个 性 化 偏好 。 这 种 非 个 性 化 模型 在 3. 7. 1 节 中 讨论 ， 其 相当 于 在 上 述 模型 
中 设置 k= 二 0。 因 此 ， 仅 学 习 用 户 和 物品 的 偏差 .并 且 通 过 对 偏差 求 和 来 预测 用 户 i 和 物品 
j 的 基础 评分 Bj 可 以 增强 任意 已 有 的 协同 过 滤 模 型 。 为 此 ， 可 以 在 应 用 协同 过 滤 之 前 对 评 
分 和 矩阵 的 G, D (已 知 ) 值 中 减 去 相应 的 B; 。 这 些 值 在 后 处 理 阶 段 再 加 回 到 预测 值 。 这 
种 方法 对 于 不 易 参 数 化 偏差 变量 的 模型 特别 有 用 。 例 如 ， (传统 ) 近邻 模型 通过 逐 行 均值 
中 心 化 来 实现 这 些 偏差 校正 目标 ， 尽 管 使 用 Bi 来 校正 矩阵 项 是 一 种 更 复杂 的 方法 (因为 
它 对 用 户 和 物品 偏差 都 做 了 校正 )。 

3.6.4.6 引入 隐 含 的 反馈 

一 般 来 说 ， 隐 含 的 反馈 的 使 用 场景 与 一 元 评分 和 矩阵 相对 应 ， 用 户 通过 购买 物品 来 表达 
自己 的 兴趣 。 然 而 ， 即 使 在 用 户 对 物品 给 出 明确 评分 的 情况 下 ， 被 其 评分 的 物品 的 “ 身 
份 ” 可 以 被 视 为 隐 含 的 反馈 。 换 句 话 说， 不 用 考虑 评分 的 具体 值 ， 仅 通过 被 用 户 评分 的 物 
品 的 身份 就 可 以 给 出 较为 显著 的 评分 预测 值 。 最 近 的 一 篇 论文 D8 在 音乐 领域 给 出 了 上 述 
现象 的 优雅 描述 : 

“直观 上 ， 可 以 用 一 个 简单 的 过 程 来 解释 结果 [显示 隐 含 反馈 的 预测 值 ]， 用 

户 对 他 们 听 到 的 歌曲 进行 评分 ， 并 倾听 他 们 期 望 喜 欢 的 音乐 ， 同 时 避 开 不 喜欢 的 

类 型 。 因 此 ， 大 部 分 会 得 到 不 良 评分 的 歌曲 无 法 得 到 用 户 的 自愿 评分 。 而 由 于 人 

们 很 少 听 随机 的 歌曲 ， 或 很 少 随机 选择 要 观看 的 电影 ， 所 以 我 们 应 该 能 在 许多 领 

域 观察 到 随机 物品 的 评分 分 布 与 用 户 选 择 的 物品 的 相应 分 布 之 间 的 差异 。” 

目前 ， 研 究 人 员 已 经 提出 了 各 种 框架 来 处 理 隐 含 的 反馈 ， 如 非 对 称 因子 模型 和 
SVD 十 十 。 这 些 算 法 使 用 两 个 不 同 的 物品 因子 和 矩阵 V 和 Y， 分 别 对 应 于 显 式 和 隐 式 的 反 
馈 。 用 户 潜在 因子 完全 或 部 分 地 由 与 用 户 评分 物品 相对 应 的 ( 隐 含 ) 物品 潜在 因子 矩阵 Y 
的 行 的 线性 组 合 来 导出 。 其 思想 在 于 ， 用 户 因 子 与 用 户 偏好 相对 应 ， 而 且 用 户 偏 好 应 受到 
他 们 评分 的 物品 的 影响 。 在 最 简单 的 非 对 称 因 子 模型 中 ， 用 户 因 子 通过 评分 项 的 因子 向 量 
的 线性 组 合 来 构造 。 这 导致 了 一 种 不 对 称 性 一 一 用 户 因 子 不 再 有 独立 变量 。 取 而 代 之 的 是 
两 组 独立 物品 因子 〈 即 显 式 和 隐 式 )， 用 户 因子 通过 隐 含 物品 因子 的 线性 组 合 导 出 。 有 文 
献 讨论 了 这 种 方法 的 许多 变 体 [358J] ， 其 原始 思想 被 归功 于 Paterek[473] 。SVD 十 十 模型 进 一 
步 将 这 种 非 对 称 方法 与 〈 显 式 ) 用 户 因子 和 传统 的 因子 分 解 框 架 相 结合 。 因 此 ， 非 对 称 方 
法 可 以 被 视 为 SVD 十 十 的 简化 前 体 。 为 了 清楚 地 说 明 这 一 点 ,我 们 首先 简要 讨论 非 对 称 
模型 。 
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非 对 称 因子 模型 : 为 了 捕获 隐 含 的 反馈 信息 ， 我 们 首先 从 显 式 评分 矩阵 中 导出 隐 式 反 
REE. MF mXn 的 评分 矩阵 R， 如 果 值 AA. Wm Xn ate Ree F= fy] 
置 为 1， 如 果 未 知 ， 则 置 为 0。 随 后， 反馈 矩阵 下 被 归 一 化 ， 使 得 每 行 的 工 ; 范 数 为 1。 因 
Ik, WR I; 是 由 用 户 i 评 分 的 物品 的 索引 集合 ， 则 第 i 行 中 的 每 个 非 零 项 是 1/ VT 天 | 。 评 
分 矩阵 R 及 其 对 应 的 隐 式 反馈 矩阵 下 的 示例 如 下 : 

1 一 
? 2-2 ,一 a 0 0 1/42 0. if v2 0 
0 ? % 3 7) 2 1/71 0 0 0 0 0 
一 1 这 ss ce HM EY 1//3 1/43 1/V3 0 0 0 





R F 

nXk WERE Y= yy] 被 用 作 隐 含 物品 一 因子 矩阵 ， 和 矩阵 下 提供 线性 组 合 系 数 用 于 创 
建 用 户 因 子 矩 了 泗 。Y 中 的 变量 将 因子 一 物品 的 组 合 对 隐 式 反馈 的 贡献 的 倾向 性 进行 编码 。 
例如 ， 如 果 |yi | 很 大 ， 那 么 这 意味 着 ,无论 评 分 的 实际 值 是 多 少 ， 仅 仅 是 对 物品 i 进行 评 
分 这 一 简单 的 行为 ， 就 已 经 为 此 动作 对 于 第 ; 个 隐 分 量 的 倾向 性 提供 了 重要 信息 。 在 简化 
非 对 称 模型 中 ， 用户 因子 被 编码 为 评分 物品 的 隐 舍 物品 因子 的 线性 组 合 ; 基本 思想 是 使 用 
用 户 动 作 的 线性 组 合 来 定义 他 们 的 偏好 (因子)。 具 体 来 说 ， 和 矩阵 乘积 FY fim Xk 的 用 
户 一 因子 和 矩阵， 其 中 每 个 (特定 于 用 户 ) 的 行 是 隐 含 物品 因子 的 线性 组 合 (取决 于 用 户 评 
分 的 物品 )。 和 矩阵 FY 用 于 代替 用 户 因子 矩阵 已， 评分 矩阵 被 分 解 为 Rs:[LFY]VYI， 其 中 V 
是 nXk 的 显 式 物 品 因 子 和 矩阵 。 如 果 需 要 ,偏差 变量 可 以 通过 均值 中 心 化 评分 矩阵 引入 ， 
将 两 个 附加 列 追 加 到 并 AVP, 3.6.4.5 HR (参见 习题 13)。 

这 种 简单 的 方法 经 常 提供 出 色 的 结果 S ， 因 为 它 通 过 将 它们 导出 为 物品 一 因子 的 线性 
组 合 来 减少 用 户 因 子 的 元 余 。 其 基本 思想 是 ， 如 果 两 个 用 户 已 经 评价 了 类 似 的 物品 ， 就 会 
有 类 似 的 用 户 因 子 ， 而 无 须 考 虑 有 具体 的 评分 值 。 注 意 ,，nXk 和 矩阵 Y 包含 的 参数 比 mXk 用 
户 因 子 和 矩阵 UU 更 少 ， 因 为 nm。 这 种 方法 的 男 一 个 优点 是 可 以 通过 将 其 并 入 隐 式 反馈 矩 
阵 下 来 引入 其 他 类 型 的 独立 隐 式 反馈 例如 购买 或 浏览 行为 )。 在 这 种 情况 下 ， 基 于 其 使 
用 显 式 和 隐 式 评分 的 能 力 ， 该 方法 通常 可 以 比 大 多 数 其 他 形式 的 矩阵 分 解 (具有 明确 的 评 
分 ) 更 好 。 然 而 ， 即 使 在 没有 独立 的 隐 式 反馈 可 用 的 情况 下 ， 该 模型 似乎 比 用户 数 量 大 且 
非常 稀 朴 的 矩阵 〈 与 物品 数量 相 比 ) 的 矩阵 分 解 的 简单 变形 更 好 。 该 模型 的 另 一 个 优点 是 
不 需要 用 户 参数 化 ; 因此 可 以 很 好 地 适用 于 样本 外 的 用 户 (尽管 它 不 能 用 于 样本 外 的 物 
品 )。 换 句 话 说， 与 大 多 数 和 矩阵 分 解 方法 不 同 ， 模 型 至 少 是 部 分 归纳 的 。 我 们 省 略 了 此 模 
型 的 梯度 下 降 步 又， 因为 其 泛 化 会 在 下 一 节 讨 论 。 但 是 ， 在 习题 13 的 问题 描述 中 列举 了 
相应 的 步骤 。 

非 对 称 因 子 模型 的 基于 物品 的 参数 化 也 提供 了 很 好 的 可 解释 性 。 注 意 ， 可 以 将 因子 分 
f LFYjVT 重 写 为 FLYVT]。 和 矩阵 YVT 可 以 被 视 为 nXn 的 物品 到 物品 预测 和 矩阵， 其 中 
LYV |; 告诉 我 们 评分 物品 i 对 物品 ;7 的 预测 评分 有 多 大 贡献 。 和 矩阵 提供 相应 的 m Xn 个 
用 户 到 物品 的 系数 ， 因 此 ， 用 下 与 [YYVTI] 相 乘 提供 了 用 户 到 物品 的 预测 。 因 此 ， 现 在 可 
以 解释 哪些 过 去 用 户 消 费 / 评 分 过 的 物品 对 FLYVT] 中 值 的 预测 做 出 了 最 大 贡献 。 这 种 可 
解释 性 是 以 物品 为 中 心 的 模型 所 固有 的 。 


O 在 许多 情况 下 ， 这 种 方法 优 于 SVD 十 十 ， 特 别 是 当 已 知 值 数量 很 小 时 。 
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SVD ++, 纯粹 基于 评分 物品 身份 的 用 户 因 子 的 推导 似乎 是 非 对 称 因 子 模型 中 隐 式 反 
馈 在 极端 情况 下 的 应 用 。 这 是 因为 这 样 一 种 方法 根本 不 区 分 用 户 之 间 的 差别 ， 一 些 用 户 可 
能 对 同一 组 物品 进行 了 评分 ， 但 是 给 出 了 非常 不 同 的 评分 值 。 一 对 这 样 的 用 户 将 得 到 完全 
相同 的 未 评分 物品 的 预测 值 。 

SVD 二 十 使 用 更 细致 的 方法 。 隐 会 用 户 一 因子 矩阵 FY 不 用 于 创建 显 式 用 户 一 因子 矩阵 UU， 
而 仅 是 调整 它 。 因 此 ， 在 与 VT 相 乘 之 前 ， 需 要 将 FY 添加 到 UU 中 。 然 后 ， 重 建 的 mXn 评 分 
和 矩阵 尺 由 《0 十 FYDVI 给 出 ， 并 且 预 测评 分 的 隐 式 反馈 分 量 由 (FY)VT 给 出 。SVD 十 十 带 来 
的 额外 的 灵活 性 要 付出 的 代价 是 参数 数量 增加 ， 这 可 能 导致 非常 稀 下 的 评分 矩阵 过 拟 合 。 
隐 式 反馈 抢 阵 可 以 从 评分 矩阵 〈 如 非 对 称 因子 模型 ) 中 导出 ， 也 可 以 包括 其 他 形式 的 隐 式 
反馈 ， 如 购买 或 浏览 行为 。 

用 户 和 物品 偏差 以 类 似 于 3. 6. 4.5 节 的 方式 处 理 。 不 失 一 般 性 地 9S， 我 们 可 以 假设 ， 
评分 矩阵 基于 全 局 平均 值 y 做 了 均值 中 心 化 处 理 。 因 此 ， 我 们 将 分 别处 理 mwmX (CR 十 2) 和 
nX(k 十 2) 的 因子 矩阵 QU 和 V， 其 中 最 后 两 列 包含 全 1 或 偏差 变量 (如 3. 6. 4.5 节 所 述 )。 
我 们 还 假设 SY 是 nX(k 十 2) 矩阵 ,YY 的 最 后 两 列 全 为 0， 这 是 因为 偏差 分 量 已 经 由 UU 的 
最 后 两 列 解 决 了 ， 但 我 们 需要 Y 中 的 最 后 两 个 虚拟 列 ， 以 确保 我 们 可 以 将 U 和 FY 作为 相 
同 大 小 的 矩阵 来 处 理 。 因 此 ， 预 测评 分 ry 可 以 表示 如 下 : 


k+2 





ri =>) (us 十 LEY Js) = ws (3- 20) 
k+2 
= is + a i 3-21 
= 2 (+ 2 AT)” aan 
k+2 k+2 
上 述 等 式 的 右 侧 第 一 项 Dy wees 是 UVT 的 第 (i, j) 项 , 第 二 项 >>) 一 此 vj 是 
s= s=lhel, VY I; 


[LFYJVT 的 (i,j) 项 。 请 注意 ,LFY] 的 (i,s) 值 自 > rat te 可 以 将 该 模型 视 为 前 一 节 


hel, i 
讨论 的 无 约 东 矩阵 分 解 模 型 ( 含 偏差 ) 和 不 对 称 因 子 分 解 模型 的 组 合 。 因 此 , 它 结 合 了 两 种 
模型 的 优势 。 
相应 的 优化 问题 , 即 在 评分 矩阵 中 最 小 化 所 有 已 知 值 ( 由 集合 S 表示 ) 的 聚合 平方 误差 
一 (六 一 六 )2， 可 以 表示 如 下 : 
i 人 2 a kt? m n n 
Min. J = R = | Tà Ta wm) + TA yi + Que + 2h) 
满足 : 
U 的 第 (k 十 2) 列 只 包含 1 
V 的 第 (十 1) 列 只 包含 1 
Y 的 最 后 两 列 只 包含 0 
请 注意 ， 就 隐 含 的 反馈 项 及 其 正则 化 算 子 而 言 ， 这 里 的 优化 公式 与 上 一 节 中 的 优化 公式 
不 同 。 可 以 使 用 该 目标 函数 的 偏 导数 来 导出 矩阵 辟 和 Y 的 更 新 规则 以 及 Y 中 的 变量 。 然 
后 ， 根 据 已 知 值 的 误差 值 oj 王 访 一 方 来 表示 更 新 规则 。 对 于 评分 矩阵 中 的 每 个 观察 条 目 





晶 ” 对 于 非 均值 中 心 化 的 矩阵 ， 可 以 在 预 处 理 期 间 减 去 全 局 平均 值 ， 然 后 在 预测 时 间 加 回 。 
日 ”我 们 使 用 与 原始 论文 咯 有 不 同 的 符号 中 ,但 方法 的 效果 相同 。 这 里 的 描述 简化 了 符号 ， 其 引入 了 较 少 的 变 
量 ， 并 将 偏差 变量 看 作 因子 分 解 过 程 的 约束 。 
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重 置 U、V 和 YY 的 固定 列 的 扰动 项 

通过 重复 循环 S 中 的 所 有 已 知 值 来 执行 更 新 。U、V 和 YY 的 固定 列 中 的 扰动 项 由 这 些 
规则 重 置 为 1 和 0。 更 有 效 和 实际 的 替代 方案 是 在 更 新 期 间 不 更 新 固定 项 ， 而 只 是 跟踪 它 
们 。 此 外， 这 些 列 总 是 初始 化 为 与 优化 模型 约束 相对 应 的 国定 值 。 随 机 梯度 下 降 的 艇 套 循 
环 结构 在 一 系列 矩阵 分 解 方法 中 是 相似 的 。 因 此 ， 可 以 使 用 图 3- 9 中 描述 的 基本 框架 ， 以 
及 基于 上 述 讨论 的 更 新 。 通 过 使 用 不 同 因子 矩阵 的 不 同 正则 化 参数 可 以 获得 更 好 的 结果 。 
文献 [151] 中 描述 了 随机 梯度 下 降 的 一 个 快速 变形 。 同 时 ， 也 可 以 使 用 交替 的 最 小 二 乘 
法 来 解决 上 述 问题 (参见 习题 12) 。 虽 然 该 模型 被 称 为 SVD 十 十 fo] ， 但 由 于 因子 分 解 矩 
阵 的 基 向 量 不 正 交 ， 所 以 名 称 有 一 定 误导 性 。 事 实 上 ， 术语 “SVD” 通 常 在 潜在 因子 模型 
的 文献 中 被 广泛 使 用 。 在 下 一 节 中 ， 我们 将 讨论 奇异 值 分 解 与 正 交 向 量 的 使 用 。 


3.6.5 奇异 值 分 解 


奇异 值 分 解 (SVD) 是 矩阵 分 解 的 一 种 形式 ， 其 中 辟 和 Y 的 列 被 限定 为 相互 正 交 的 。 
相互 正 交 性 的 优点 在 于 ， 概 念 可 以 完全 独立 于 彼此 且 可 以 在 散 点 图 中 进行 几何 解释 。 然 
而 ， 这 种 分 解 的 语义 解释 通常 更 加 困难 ， 因 为 这 些 隐 向 量 包 含 正 数 和 人 负数， 并 且 受 其 与 其 
他 概念 的 正 交 性 约束 。 对 于 完全 已 知 的 和 矩阵， 使 用 特征 分 解 方法 执行 SVD 是 比较 容易 的 。 
我 们 将 首先 简要 回顾 第 2 章 2. 5. 1. 2 节 中 关于 奇异 值 分 解 的 讨论 。 
考虑 评分 矩阵 完全 已 知 的 情况 。 可 以 通过 使 用 秩 kmin{m,n) 的 截断 SVD 近似 分 解 
AMR. RB SVD 计算 如 下 : 
R~Q.z;P} (3-22) 
XE, Qe. Be. Pe 分 别 是 mx Xk、kXk、n Xk 的 矩阵 。 和 矩阵 Q: 和 Pi 分 别 包 含 RRT 和 RTR 
es rt i OR) FAD. 包含 沿 其 对 角 线 的 任 一 矩阵 的 & 个 最 大 特征 
fy (JEM) 平方 根 。 值 得 注意 的 是 ，RRT 和 RTR 的 非 零 特征 值 是 相同 的 ， 即 使 当 mAn 
时 它们 将 包含 不 同 数量 的 零 特征 值 。 和 矩阵 Pk 包含 RTR 的 顶部 特征 向 量 ， 它 是 行 空间 降 维 
所 需 的 简化 基本 表示 。 这 些 特征 向 量 包含 关于 评分 的 物品 一 物品 相关 性 的 方向 性 信息 ， 因 
此 它们 能 够 在 旋转 坐标 系 中 用 较 少 的 维度 表示 每 个 用 户 。 例 如 ， 在 图 3-6 中 ,顶部 特征 向 
量 与 表示 物品 -物品 相关 性 的 主要 方向 的 隐 向 量 相 关 。 此 外 ， 和 矩阵 OS. AA EW P WH 
经 过 变换 和 简化 的 原始 评分 矩阵 的 既 X& 表 示 。 因 此 ， 在 图 3-6 中 ， 和 矩阵 Qi 是 包含 了 沿 


日” 论文 中 通常 以 向 量化 形式 描述 这 些 更 新 ， 这 些 更 新 可 以 应 用 于 U、V 和 Y 的 行 ， 如 下 所 示 : 
Ue u; + alex V7 一 AW) 
人 


vE v tale * [= 


村- ee EL 





hel, 





T ey 
ya Yr + a( 


重 置 U、V 和 YY 的 固定 列 的 扰动 项 
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着 主要 隐 疝 量 的 评分 坐标 的 一 维 列 向 量 。 

从 公式 (3-22) 可 以 很 容易 地 看 出 ，SVD 被 定义 为 矩阵 分 解 。 当 然 ， 这 里 的 因子 分 
解 是 要 分 解 为 三 个 矩阵 而 不 是 两 个 矩阵 。 然 而 ,对 角 和 矩阵 五 可 以 被 用 户 因 子 Qi 或 物品 因 
FP. 吸收 。 按 惯例 ， 用 户 因 子 和 物品 因子 定义 如 下 : 

U =Q,2; 
如 前 所 述 ， 评 分 矩阵 R 的 因子 分 解 被 定义 为 R= 二 UVT7。 只 要 用 户 和 物品 因子 矩阵 具有 正 交 
的 列 ， 就 很 容易 将 得 到 的 因子 分 解 转 换 成 满足 SVD 的 形式 (参见 习题 9)。 因 此 ， 分解 过 
程 的 目标 是 用 正 交 列 发 现 和 矩阵 U AV, RK SVD 可 以 表示 为 矩阵 U 和 VW 上 的 优化 问题 : 


Minimize J = + || R — UV" || ? 


满足 : 
U 的 列 相互 正 交 
V 的 列 相 互 正 交 
很 容易 看 出 ， 与 无 约束 因子 分 解 的 情况 的 唯一 区 别 是 存在 正 交 性 的 约束 。 换 名 话说， 与 无 
约 东 矩阵 分 解 相 比 ， 是 在 更 小 的 解 空 间 上 优化 相同 的 目标 函数 。 尽 管 人 们 可 能 会 认为 约束 
的 存在 会 增加 近似 误差 J， 但 是 事实 证 明 ， 如 果 甜 阵 R 完 全 已 知 且 未 使 用 正则 化 ,在 SVD 和 
非 约束 矩阵 分 解 的 情况 下 J 的 最 优 值 是 相同 的 。 因 此 ， 对 于 完全 已 知 的 矩阵 ，SVD 的 最 优 


解 是 无 约 东 矩阵 分 解 的 替代 最 优 解 之 一 。 在 及 不 完全 已 知 且 目标 函数 了 一 立 || R-UVT ||? 


仅 在 已 知 值 上 计算 的 情况 下 ， 这 不 一 定 正 确 。 此 时 ， 无 约束 矩阵 分 解 通常 在 已 知 值 上 能 够 
保证 较 低 的 误差 。 然 而 ， 由 于 不 同 模型 的 可 泛 化 的 程度 不 同 ， 对 于 未 知 值 来 说 其 性 能 是 不 
可 预测 的 。 

3.6.5.1 SVD 的 简单 迭代 方法 

在 本 节 中 ， 我们 将 讨论 当 和 矩阵 R 不 完全 已 知 时 如 何 解 决 优化 问题 。 第 一 步 是 通过 从 R 
中 减 去 用 户 i 的 平均 评分 ;来 对 R 的 每 一 行 做 均值 中 心 化 处 理 。 这 些 行 平均 值 需要 被 存 
储 ， 因 为 最 后 要 依赖 它们 来 重 构 缺 失 值 的 原始 评分 。 令 R RUM Z NH. HA. 
将 R. 的 缺失 值 置 为 0。 因 为 均值 中 心 化 处 理 后 的 矩阵 的 缺失 值 被 设置 为 0， 所 以 该 方法 实 
际 上 是 将 缺失 值 设 置 为 相应 用 户 的 平均 评分 。 然 后 ， 将 SVD 应 用 于 Re 以 获得 分 解 R. = 
QZEAP: 。 所 得 到 的 用 户 因 子 和 物品 因子 由 U 二 QiB4 和 V 二 Pi 给 出 。 令 UU 的 第 i 行为 由 磺 表 
示 的 & 维 向 量 ，V 的 第 j 行为 由 矿 表 示 的 & 维 向 量 ， 那么 ， 用 户 i 对 物品 j 的 评分 三 被 估 
计 为 调整 后 的 去 和 如 的 点 积 : 

rij = üi ° Oj + pi (3-23) 

请 注意 ,第 一 步 中 应 用 均值 中 心 化 处 理 ， 需 要 将 用 户 i 的 平均 评分 jy; 添加 到 评分 的 估 
WE. 

这 种 方法 的 主要 问题 是 ， 用 行 均 值 蔡 代 未 知 值 可 能 会 导致 很 大 的 偏差 。 第 2 章 2. 5.1 
节 给 出 了 一 个 使 用 列 均值 替代 从 而 导致 偏差 的 具体 例子 。 行 替代 和 列 蔡 代 的 原理 是 完全 类 
似 的 。 有 几 种 方法 可 以 减少 这 种 偏差 ， 其 中 一 种 是 使 用 最 大 似 然 估 计 54,423] ， 这 在 第 2 章 
2. 5.1.1 节 中 已 经 讨论 过 了 。 男 一 种 方法 是 通过 改进 未 知 值 的 估计 来 迭代 地 减少 偏差 。 该 
方法 包含 以 下 步 又 : 

D 初始 化 : 将 R 的 第 i 行 中 的 未 知 值 初始 化 为 该 行 的 平均 值 yy; 以 创建 Rj。 


[114] 
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2) 迭代 步骤 1: 以 OPE 的 形式 执行 Rj WHR SVD. 

3) 迭代 步骤 2: WHR, (原始 ) 未 知 值 重新 调整 为 OP) 中 的 相应 值 。 跳 转 到 迭代 
步骤 1。 

迭代 步骤 1 和 2 执行 直到 收敛 。 在 这 种 方法 中 ， 尽 管 初 始 化 的 步骤 在 前 期 的 SVD 和 迫 
代 中 会 导致 偏差 ， 但 后 来 的 迭代 则 倾向 于 提供 更 好 的 估计 。 这 是 因为 矩阵 OEP) RE 
偏 置 值 上 会 有 较 大 程度 的 不 同 。 最 终 ， 在 收敛 时 COk3xP 会 给 出 评分 矩阵 。 

当 未 知 值 数 量 较 多 时 ， 该 方法 可 能 会 困 于 局 部 最 优 。 特 别 地 ， 收 敛 的 局 部 最 优 会 对 初 
始 化 选择 敏感 。 也 可 以 使 用 3. 7. 1 节 中 讨论 的 基准 预测 器 来 执行 更 强大 的 初始 化 。 基 本 思 
想 是 使 用 学 习 到 的 用 户 和 物品 偏差 来 计算 用 户 1 和 物品 7 的 初始 预测 值 B; 。 这 相当 于 在 
& 一 0 的 情况 下 应 用 3.6.4.5 节 中 的 方法 ， 然 后 将 用 户 i 的 偏差 加 到 物品 ; 的 偏差 以 得 到 
B; 。 接 着 ， 在 评分 矩阵 中 从 每 个 已 知 值 G, j) PRA By 的 值 ， 并 在 初始 化 时 将 未 知 值 
置 为 0。 再 将 上 述 和 迭代 方法 用 于 调整 后 的 矩阵 ,将 Bi 的 值 在 预测 时 加 回 到 (i，j)。 因 为 
用 了 较 好 的 初始 化 方法 ， 所 以 结果 往往 更 好 。 

正则 化 可 以 与 上 述 和 迭代 方法 结合 使 用 。 其 思想 是 在 每 次 迭代 中 执行 Rj 的 正则 化 
SVD， 而 不 是 仅 使 用 vanilla SVD. h FERE Ry 在 每 次 迭代 中 完全 已 知 ， 因 此 对 这 些 中 间 
和 矩阵 应 用 正则 化 SVD 方法 相对 容易 。 文 献 [541] 讨论 了 完整 矩阵 的 正则 化 奇异 值 分 解 方 
法 。 正 则 化 参数 Mk Mar 的 最 优 值 可 以 通过 使 用 hold-out 或 交叉 验证 方法 来 自 适应 地 
选择 。 

3.6.5.2 基于 最 优化 的 方法 

迭代 方法 代价 很 高 ， 因 为 它 需 要 和 完全 已 知 的 矩阵 一 起 工作 。 这 对 于 较 小 的 和 矩阵 实现 
起 来 很 简单 ， 但 在 数据 量 很 大 时 可 扩展 性 不 佳 。 更 有 效 的 方法 是 对 前 一 节 的 优化 模型 添加 
正 交 约束 。 可 以 使 用 各 种 梯度 下 降 法 来 求解 模型 。 令 S 表示 评分 矩阵 中 已 知 值 的 集合 。 
(正则 化 ) 优化 问题 表示 如 下 : 

k m n k 
Minimize J = + > (ri 一 >) wis 。 Ujs 六 +25) S +25 Dh 
(i j)ES s=1 i s s 
满足 : 
U 的 列 相 互 正 交 
V 的 列 相互 正 交 

该 模型 与 无 约束 矩阵 分 解 的 主要 区 别 在 于 增加 了 正 交 性 约束 ， 从 而 使 问题 更 加 困难 。 
例如 ， 如 果 尝 试 直接 使 用 上 一 节 的 更 新 方程 来 解决 无 约束 矩阵 分 解 ， 则 会 违反 正 交 性 约 
束 。 然 而， 存在 一 些 改良 的 更 新 方法 可 以 处 理 这 种 情况 。 例 如 ， 可 以 使 用 投影 梯度 下 降 
法 [6 ， 其 中 也 或 Y 的 特定 列 的 所 有 分 量 一 次 性 更 新 。 在 投影 梯度 下 降 中 ,，U (或 V) 的 第 
户 列 的 下 降 方向 〈 如 上 一 节 的 等 式 所 示 ) 被 投影 在 与 可 (或 V) 的 前 (p 一 1) 列 正 交 的 方 
向 上 。 例 如 ，3. 6. 4. 3 节 的 实现 可 以 修改 为 在 已 经 学 习 到 的 部 分 的 正 交 方 向 上 投影 每 个 因 
子 来 学 习 正 交 因 子 。 可 以 通过 计算 基准 预测 B; (如 上 一 节 中 所 讨论 的 ) 并 在 建 模 之 前 从 
评分 矩阵 中 的 已 知 值 中 减 去 它们 来 轻松 地 引 和 用户 和 物品 偏差 。 随 后 ， 可 将 基准 预测 作为 
后 处 理 步 又 加 回 到 预测 值 。 

3.6.5.3 样本 外 的 推荐 

诸如 和 矩阵 分 解 的 许多 用 来 补 全 和 矩阵 的 方法 本 质 上 是 可 以 转化 的 ， 在 这 些 方法 中 ， 只 能 
对 训练 中 已 经 包括 在 评分 矩阵 中 的 用 户 和 物品 进行 预测 。 如 果 在 因子 分 解 的 时 候 未 包含 在 
原始 评分 矩阵 R 中 ， 则 根据 U 和 VV 来 对 新 用 户 或 新 物品 进行 预测 并 不 容易 。 正 交 基 向 量 
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阵 补 全 。 

图 3-6 中 提供 的 几何 解释 有 助 于 理解 为 什么 正 交 基 向 量 能 够 帮助 预测 缺失 的 评分 。 一 
旦 获得 了 隐 向 量 ， 就 可 以 在 相应 的 隐 向 量 上 投影 评分 信息 ; 当 向 量 相 互 正 交 时 这 很 容易 。 
考虑 SVD 获得 潜在 因子 U 和 V 的 情况 ,VV 的 列 定 义 了 通过 原点 的 & 维 超 平面 H1。 在 图 3- 6 
中 ， 潜 在 因子 的 数量 为 1]， 因 此 图 中 所 示 为 单个 隐 向 量 〈 即 1 维 超 平面 )。 如 果 使 用 了 两 个 
因子 则 是 一 个 平面 。 

现在 考虑 一 个 新 的 用 户 的 评分 被 添加 到 系统 中 。 请 注意 这 个 新 用 户 没 有 在 U 或 V 的 洪 
在 因子 中 表示 。 假 设 新 用 户 共 给 出 了 大 个 评分 。 该 用 户 可 能 的 评分 空间 是 ah) 维 超 平 
Hm. H h HEHE., 图 3- 6 给 出 了 一 个 例子 ， 其 中 Spartacus 的 一 个 评分 是 固定 的 ， 
超 平面 是 在 另外 两 个 维度 上 定义 的 。 令 It 表示 这 个 超 平面 ， 则 我 们 的 目标 就 是 确定 7t 上 
尽 可 能 接近 Hi 的 点 。 在 KH 上 的 这 个 点 确定 了 其 他 评分 。 会 出 现 三 种 可 能 的 情况 : 

1) Hi 和 Hs 不 相交 : 返回 最 接近 Hi 的 Hs 上 的 点 。 一 对 超 平面 之 间 的 最 小 距离 可 以 
表示 为 一 个 简单 的 平方 和 优化 问题 。 

2) Hi PH: 在 唯一 的 点 相交 : 这 种 情况 类 似 于 图 3-6， 可 以 使 用 交点 的 对 应 的 评分 。 

3) Hi PH: At HRP HEAR, HP t 之 1: 应 该 找到 尽 可 能 接近 于 上 维 超 平面 的 所 
有 评分 ， 并 返回 相应 用 户 的 评分 的 平均 值 。 请 注意 这 种 方法 结合 了 潜在 因子 和 近邻 方法 。 
与 近邻 方法 的 主要 区 别 是 利用 潜在 因子 模型 的 反馈 ， 以 更 精准 的 方式 来 发 现 近邻 。 

正 交 性 在 几何 可 解释 性 方面 具有 显著 的 优势 。 发 现 样本 外 推荐 的 能 力 是 该 优势 的 一 个 
案例 。 

3.6.5.4 奇异 值 分 解 示例 

为 了 说 明 奇 异 值 分 解 的 使 用 ， 我们 将 这 种 方法 应 用 于 表 3- 2 给 出 的 例子 。 我 们 将 使 用 


迭代 方法 反复 估计 未 知 值 。 第 一 步 是 将 未 知 值 设 为 每 行 的 平均 值 ， 这 会 令 填充 后 的 评分 矩 





阵 Rj 变 为 : 
和 Led paesi 
1 1 0.2 1 1 1 
RS | so 1 T= 1. yO 
=e Fa =I 1 1 1 
=F POW sa 1 1 1 


将 2 秩 截断 的 SVD 应 用 于 矩阵 ， 并 在 用 户 因 子 内 吸收 对 角 阵 ， 所 得 如 下 : 
1.129 一 2.152 
1.937 0.640 
机 |， 1.539 0.873 人 
—2.400 —0.341 
mets 0.461 
1.0592 —11604 0.9716 —0.8515 0.8040 —1.0592 
0.6636 0.9039 0.5881 —0.9242 —1.1244 —0.6636 
=| 0.4300 0.9623 0.3764 —0.6891 —1.1045 —0.4300 
—0.9425 —0.8181 —0.8412 1.2010 1.1320 0.9425 
1.0290 —0.2095 —0.9270 1.1475 0.5535 1.0290 
请 注意 ， 即 使 在 第 一 次 迭代 之 后 ， 也 会 获得 对 未 知 值 的 合理 估计 ， 如 估计 得 到 的 结果 


0.431 0. 246 0.386 —0.518 —0. 390 a) 
— 0.266 0.668 — 0.249 0.124 — 0.578 0. 266 
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为 ?23 守 0. 558 1, 7310.43, Fas™— 0.43, fs2™—0. 209 5。 当 然 ， 由 于 这 些 值 开始 是 用 
行 平 均值 填充 的 ， 因 此 是 有 偏差 的 ， 没 有 准确 地 反映 正确 值 。 因 此 ， 在 下 一 次 迭代 中 ,我 
们 填充 原始 矩阵 中 的 这 4 个 缺失 值 ， 以 获得 以 下 矩阵 : 
1 =H a) wil 1 
1 1 sb ho = 
Ry = |0. 43 1 Lot =1 —0,43 
= si =A o . 届 1 
=] = 02209 5 = hy «a 1 
这 个 矩阵 仍然 是 有 偏 的 ,但 是 比 之 前 用 行 平均 值 填充 的 那个 要 好 。 在 下 一 轮 迭 代 中 ， 我们 
对 这 个 新 的 矩阵 应 用 SVD， 这 显然 是 一 个 更 好 的 起 点 。 再 次 应 用 2 秩 SVD， 我 们 在 下 一 
次 迭代 中 获得 以 下 矩阵 : 
1 = 1 A 


1 1 MA = 1 S] 

R; = |0.669 4 1 1 *=1 = 0 
= =i; 二 1 1 1 

= 0.508 8 =] 1 1 1 


请 注意 ， 新 估计 的 值 在 下 一 次 迭代 中 已 进一步 更 新 。 新 估计 值 为 fr23 之 0.927 4, ra 天 
0. 669 4, ras—0. 669 4, r52—0.508 8。 此 外 ， 值 的 改变 比 第 一 次 迭代 更 小 。 在 将 该 
过 程 再 次 迭代 以 获得 最 新 的 Rj 时 ， 我 们 获得 以 下 和 矩阵: 

1 ==] 1 —1 1 一 1 


1 1 B987 3 =1 =] =a 

R; = |0. 799 3 1 Ll SL Sa Sn: 70803 
=! =a =l 1 1 1 

=1 —0.699 4 = 1 1 1 


估计 值 现在 是 7?23 守 0.937 3, r31 œ0.799 3, rs œ — 0.799 3, rse~—0.699 4。 请 注意 ， 
值 的 改变 比 之 前 的 迭代 更 小 。 事 实 上 ，”zs 的 变化 非常 小 。 在 连续 迭代 中 ， 值 的 变化 趋向 
于 越 来 越 小 ， 直 到 达到 收敛 。 所 得 到 的 值 可 以 用 作 预 测 值 。 此 过 程 通常 不 需要 大 量 的 和 迭 
代 。 事 实 上 ， 对 于 给 定 用 户 的 评分 进行 排序 ， 只 需要 进行 5 一 10 次 迭代 。 在 这 个 特殊 的 例 
子 中 ， 可 以 在 第 一 次 迭代 之 后 对 用 户 3 的 两 个 缺失 评分 进行 正确 排序 。 该 方法 也 可 以 在 以 
行 或 列 为 中 心 对 齐 (或 两 者 都 做 ) 之 后 使 用 ,其 具有 在 预测 之 前 去 除 用 户 和 物品 偏差 的 效 
果 。 应 用 这 种 偏差 校正 方法 通常 对 预测 有 正面 的 影响 。 

该 方法 不 能 保证 收敛 到 全 局 最 优 值 ， 特 别 是 初始 化 点 较 差 时 。 当 矩阵 中 的 大 部 分 值 未 
知 时 ， 这 一 点 尤为 明显 。 在 这 些 情况 下 ， 初 始 偏差 可 能 足以 影响 最 终 解 的 质量 。 因 此 ， 有 
时 会 建议 使 用 简单 的 启发 式 ， 如 近邻 模型 ， 以 便 获 得 未 知 值 的 第 一 个 估计 。 选 择 如 此 有 力 
的 估计 作为 起 点 将 加 快 收敛 速度 ， 同 时 也 会 获得 更 准确 的 结果 。 此 外 ， 可 以 很 容易 地 将 该 
整个 过 程 应 用 于 填充 后 矩阵 的 正则 化 奇异 值 分 解 。 主 要 区 别 在 于 每 次 迭代 使 用 正则 化 的 奇 
异 值 分 解 用 估计 值 填 充 的 当前 矩阵。 文献 [541] 中 的 工作 可 以 用 作 正 则 化 奇异 值 分 解 的 
子 程序 。 


3.6.6 非 负 和 矩阵 分 解 
非 负 和 矩阵 分 解 (NMF) 可 用 于 非 负 的 评分 矩阵 。 这 种 方法 的 主要 优点 不 一 定 是 准确 
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性 ， 而 是 在 理解 用 户 和 物品 的 交互 中 提供 的 高 可 解释 性 。 与 其 他 形式 矩阵 分 解 的 主要 区 别 
在 于 U 和 YY 因子 必须 是 非 负 的 。 因 此 ， 非 负 矩 阵 分 解 的 优化 公式 如 下 : 
Minimize J = 于 || R— UVT ||? 
满足 : 
U>0 
V0 

虽然 非 负 和 矩阵 分 解 可 以 用 于 任何 非 负 评分 矩阵 (例如 评分 从 ~5 的 情况 )， 但 是 其 最 大 的 
可 解释 性 优点 出 现在 有 机 制 令 用 户 表 达 “ 喜 欢 ” 但 没有 机 制 让 用 户 表 达 “ 不 喜欢 ”的 情 
况 。 这 样 的 矩阵 包括 一 元 评分 矩阵 或 用 矩阵 的 非 负 值 表 示 动 作 频 率 的 情况 。 这 些 数 据 集 也 
称 为 隐 式 反馈 数据 集 [260,457] 。 可 以 给 出 一 些 例子 : 

D 在 客户 交易 数据 中 ， 购 买 物品 对 应 于 表示 对 物品 的 嘉 好。 然而， 不 购买 物品 并 不 
一 定 意味 着 不 喜欢 ， 因 为 用 户 可 能 在 其 他 地 方 购买 了 该 物品 ， 或 者 他 们 可 能 不 知道 该 物 
品 。 当 金额 与 交易 相关 联 时 ， 和 矩阵 R 可 以 包含 任意 非 负数 。 但 是 ， 所 有 这 些 数 字 都 指定 了 
一 个 物品 的 喜好 程度 ， 但 并 不 表示 不 喜欢 。 换 名 话说 ， 隐 式 反 馈 中 的 数值 表示 置信 度 ， 而 
显 式 反 馈 中 的 数值 表示 偏好 。 

2) 类 似 于 购买 物品 的 情况 ， 对 物品 的 浏览 可 以 表示 喜欢 。 在 一 些 情况 下 ， 购 买 或 浏 
览 行为 的 频率 可 以 量化 为 非 负 值 。 

3) 在 Web 点 击 数据 中 ， 物 品 的 选择 对 应 于 喜欢 物品 的 一 元 评分 。 

4) Facebook 上 的 “喜欢 ”按钮 可 以 被 认为 是 为 物品 提供 一 元 评分 的 机 制 。 

隐 式 反馈 设置 可 以 被 认为 是 与 分 类 和 回归 建 模 中 的 正 一 未 标记 (PU) 学 习 问 题 类 似 的 
和 矩阵 补 全 问题 。 在 分 类 和 回归 模型 中 ， 当 已 知 正 类 别 是 少数 类 时 ， 将 未 标记 的 物品 视 为 负 
类 别 通常 可 以 获得 合理 的 结果 。 类 似 地 ， 如 此 设置 矩阵 和 问题 的 一 个 有 用 的 方面 是 ， 将 未 
知 值 设 置 为 0 而 非 缺 失 值 往往 是 合理 的 。 例 如 ,考虑 客户 交易 数据 集 ， 其 中 值 表 示 客 户 购 
买 的 数量 。 在 这 种 情况 下 ， 当 该 物品 未 被 客户 购买 时 ， 将 值 设 置 为 0 是 合理 的 。 因 此 ,在 
这 种 情况 下 ， 只 能 对 完全 已 知 的 抢 阵 进行 非 负 和 抢 阵 分 解 ， 这 是 机 器 学 习 文 献 中 的 典型 问 
题 。 这 个 问题 也 被 称 为 单 类 协同 过 滤 。 虽 然 最 近 的 一 些 文献 认为 ， 为 了 减少 偏差 ， 在 这 种 
情况 下 不 应 将 缺失 值 设置 为 01280,47'467'4681 ， 但 大 量 工作 表明 ， 在 建 模 过 程 中 将 缺失 值 当 
作 0 能 够 获得 合理 的 鲁 棒 解 ， 尤 其 是 当 评 分 为 0 的 先 验 概 率 非常 大 时 。 例 如 ， 在 超市 购物 
的 场景 下 ， 客 户 通常 都 不 会 购买 绝 大 多 数 的 物品 。 此 时 ， 将 缺失 值 设 置 为 0 〈 用 于 因子 分 
解 的 初始 矩阵 中 ， 但 不 用 于 最 终 预 测 ) 只 会 导致 很 小 的 偏差 ， 但 明确 地 将 值 定义 为 初始 矩 
阵 中 的 未 知 值 将 导致 复杂 的 解 。 这 种 不 必要 的 复杂 性 总 是 导致 过 拟 合 ， 尤 其 是 在 较 小 的 数 
HE PS 。 

注意 ， 非 负 和 矩阵 分 解 对 应 的 优化 问题 是 带 约 束 的 优化 问题 ， 可 以 使 用 诸如 拉 格 朗 日 松 
弛 之 类 的 标准 方法 来 解决 。 非 负 和 矩阵 分 解 算法 的 详细 推导 超出 了 本 书 的 范围 ,我们 建议 读 
者 参考 文献 [22]。 在 这 里 ， 我 们 仅 简 要 介绍 如 何 执行 非 负 和 矩阵 分 解 。 

我 们 迭代 地 更 新 和 矩阵 U MV., $ ws Al vy HRA U 和 VV 的 (i, j) 值 ， 使 用 下 
述 ug M vy 的 乘法 更 新 规则 : 


O ”这些 影响 在 机 器 学 习 中 的 偏差 方差 折 中 方面 得 到 最 好 的 理解 己 ] 。 将 未 知 值 设 置 为 0 会 增加 偏差 . 但 会 减少 方 
差 。 当 大 量 值 未 知 ， 且 未 知 值 的 先 验 概率 为 0 时 ,方差 的 作用 占据 主导 地 位 。 
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这 里 ， 为 提高 数值 上 的 稳定 性 ，e 设 为 如 10 这 样 的 小 值 。 在 更 新 方程 的 右 侧 的 UU 和 VV 中 
的 所 有 条 目 都 被 固定 为 上 一 次 迭代 结束 时 获得 的 值 。 换 句 话 说 , UNV 中 的 所 有 条 目 都 被 
“同时 ”更 新 。 有 时 会 将 较 小 的 值 添 加 到 更 新 方程 的 分 母 中 ， 以 防止 分 母 为 0 的 问题 U 
AV 中 的 条 目 初始 化 为 (0，1) 中 的 随机 值 ， 并 且 和 迭代 被 执行 到 收敛 。 通 过 使 用 更 好 的 初 
始 化 方式 可 以 获得 更 好 的 解 [31'629] 。 

如 在 其 他 类 型 的 矩阵 分 解 的 情况 下 ， 可 以 使 用 正则 化 来 提高 解 的 质量 。 基 本 思想 是 将 


A tduli? az IV il? 要 
[120] ERRARE — y 十 —— 加 到 目标 函数 中 。 这 里 il 之 0 和 a> 是 正则 化 参 
数 。 这 导致 更 新 等 式 被 修改 [4 和 如 下 : 


[hn) ys E {lem}, Yj E {1k} (3-26) 
ij J 


Pe Juo} vi E {len}, Vi € {1k} (3-27) 
RAKERA Fae SE AE, IF EAP EE) TK He ~ 10-9 RM RAB EE. AT 
以 使 用 与 前 述 相同 的 方法 来 确定 参数 和 )z 。 除 了 使 用 梯度 下 降 法 ， 也 可 以 用 使 用 非 负 
线性 回归 交替 的 最 小 二 乘法 。 在 回归 模型 中 可 以 使 用 Tikhonov 正则 化 来 防止 过 拟 合 。 非 
负 和 矩阵 分 解 的 交替 最 小 二 乘法 的 细节 可 以 在 (161, 301] 中 找到 。 这 些 现成 方法 面临 的 主 
要 挑战 是 ， 由 于 所 有 条 目 都 被 视 为 已 知 ， 它 们 在 数据 量 大 时 计算 效率 不 佳 。 在 3. 6. 6.3 节 
中 ,我们 将 讨论 如 何 解决 这 些 问题 。 

3.6.6.1 优秀 的 可 解释 性 

非 负 矩阵 分 解 的 主要 优点 是 在 解决 方案 中 实现 了 高 度 的 可 解释 性 。 将 推荐 系统 配 以 相 
关 的 解释 是 非常 有 用 的 ， 这 一 点 非 负 矩阵 分 解 可 以 提供 。 为 了 更 好 地 理解 这 一 点 ， 考 虑 包 
含 客 户 购买 的 物品 数量 的 偏好 和 矩阵 的 情况 。 具 有 6 个 物品 和 6 个 客户 的 6X6 矩阵 示例 如 
图 3-12 所 示 。 很 明显 ， 乳 制品 和 饮料 分 别 属于 两 类 产品 ， 同 时 ， 尽 管 所 有 客户 似乎 都 嘉 
欢 果 汁 ， 但 客户 购买 行为 在 物品 类 别 的 基础 上 还 是 高 度 相关 的 。 这 些 类 别 的 物品 被 称 为 特 
性 。 相 应 的 因子 矩阵 还 提供 了 客户 和 物品 对 这 些 特性 的 亲 和 程 度 的 明确 解释 。 例 如 ， 客 户 
1 一 4 喜欢 乳 制品 ， 而 客户 4 一 6 喜欢 饮料 ， 这 些 都 在 6X2 用 户 因 子 矩 阵 U 中 清楚 地 反映 
出 来 。 在 这 个 简化 的 例子 中 ， 我们 将 UU 和 VV 中 的 所 有 因子 值 都 简单 地 设 为 整数 。 实 际 上 ， 
最 优 值 通 常 是 实数 。 用 户 在 两 列 中 的 每 一 行 中 输入 的 数量 量化 了 她 对 相关 特性 的 感 兴趣 程 
度 。 类 似 地 ， 因 子 和 矩阵 V 示 出 了 物品 如 何 与 各 个 特性 相关 。 因 此 ， 在 这 种 情况 下 ， 条 件 


k 
rj ~ >) uis * Ujs 可 以 在 & 王 2 特性 的 基础 上 给 出 语义 解释 : 
s=1 


ry SOAP i SL el ROR) X (物品 了 对 乳 制 品 的 亲 和 度 ) 
HA Pi RR RAR) X (物品 7 对 饮料 的 亲 和 度 ) 
这 种 预测 ry 值 的 方法 显示 了 和 矩阵 的 “部 分 和 ”分 解 。 这 些 部 分 中 的 每 一 个 都 可 以 被 视 为 用 户 
-物品 的 共同 簇 。 这 也 是 聚 类 中 经 常 使 用 非 负 矩阵 分 解 的 原因 之 一 。 在 实际 应 用 中 ,通常 可 
以 检查 每 一 个 簇 并 在 语义 上 解释 用 户 和 物品 之 间 的 关联 关系 。 当 语义 标签 可 以 手动 附加 到 各 
L121] 种 群集 时 ， 因 子 分 解 过 程 就 能 够 对 各 种 “语义 类 型 ”物品 对 评分 的 贡献 给 出 清晰 的 说 明 。 


uij max 





Vij max| [ 
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图 3-12 非 负 和 矩阵 分 解 示例 


“部 分 和 ”分 解 可 以 数学 地 表示 如 下 。 通 过 分 别 表示 U 和 Y 的 & 列 U; 和 Vi; 的 矩阵 乘积 ， 
可 以 将 & 秩 矩阵 分 解 UV 分解 成 人 个 分 量 : 


k 
UvT = 38) U: VF (3- 28) 
i=] 


每 个 mX n EEU; VT 是 对 应 于 数据 特性 的 1 秩 矩 阵 。 由 于 非 负 分 解 的 可 解释 性 ， 很 容易 将 
这 些 方面 映射 到 簇 。 例 如 ， 分 别 对 应 于 上 例 中 乳 制 品 和 饮料 的 两 个 隐 分 量 分 别 如 图 3- 13 所 
示 。 注 意 ， 公 式 (3-28) RRE UAV 的 列 因 子 分 解 ， 而 公式 (3-14) 则 是 对 U AMV 的 行 
分 解 的 另 一 种 理解 方式 。 对 于 给 定 的 用 户 - 物 品 组 合 ， 评 分 预测 是 这 些 特性 的 贡献 的 总 和 ， 
通过 这 种 方式 可 以 更 好 地 了 解 为 什么 通过 该 方法 预测 评分 。 


饮料 特性 ( 用户- 物品 簇 
图 3-13 非 负 和 矩阵 分 解 的 “部 分 和 ”解释 





3.6.6.2 关于 隐 式 反馈 因子 分 解 的 一 些 观察 
非 负 和 矩阵 分 解 特别 适用 于 隐 式 反馈 和 矩阵， 其 中 评分 表示 积极 的 偏好 。 与 显 式 反馈 数据 
集 不 同 ， 由 于 在 这 些 数据 中 缺乏 负 反 馈 ， 因 此 不 可 能 忽略 优化 模型 中 的 缺失 值 。 值 得 注意 
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错误 。 为 了 理解 这 一 点 ， 考 虑 一 个 一 元 评分 和 矩阵， 其 中 1 分 表示 喜欢 。 图 3- 14 所 示 的 因 
子 分 解 将 仅 在 已 知 值 上 计算 时 在 任意 一 元 矩阵 上 提供 100% 的 精度 。 这 是 因为 图 3-14 中 的 
用 U 和 VT 的 乘法 会 获得 只 包含 1 而 没有 0 的 矩阵 。 当 然 ， 这 样 的 因子 分 解 对 于 未 知 值 将 
具有 非常 高 的 误差 ， 因 为 许多 未 评分 行为 可 能 对 应 于 负 偏好 。 这 个 例子 展示 了 由 缺乏 负 反 
馈 数 据 引 起 的 过 拟 合 。 因 此 ， 对 于 消极 偏好 缺失 ， 且 已 知 消极 偏好 大 大 超过 正面 偏好 的 评 
分 矩阵 ， 将 缺失 值 视 为 0 非常 重要 。 例 如 ， 在 客户 交易 数据 集中 ， 如 果 值 表示 用 户 购 买 的 
金额 ， 大 多 数 物品 在 默认 情况 下 未 被 购买 ， 则 可 以 将 未 知 值 用 0 来 近似 。 


天 


于 用 户 潜在 因子 X 物品 潜在 因子 k 
[所 有 项 等 于 1/VE] 


[所 有 项 等 于 1/VE] 





U 
图 3-14 一 元 评分 矩阵 中 由 忽略 缺失 项 导致 的 过 拟 合 


3.6.6.3 隐 式 反馈 的 计算 及 加 权 问 题 

将 缺失 条 目 作为 0 的 处 理 在 和 矩阵 很 大 时 会 导致 计算 能 力 方 面 的 挑战 。 对 此 有 几 种 解决 
方案 。 例 如 ， 取 一 个 缺失 值 的 样本 全 部 作为 0 处理 。 采 样 情况 下 的 梯度 下 降解 与 下 一 节 即 
将 讨论 的 很 相似 。 可 以 通过 集成 方法 进一步 提高 精度 ， 将 矩阵 用 不 同 的 0 样本 多 次 分 解 ， 
并 将 每 个 因子 分 解 用 于 预测 〈 略 有 不 同 ) 评分 。 然 后 将 物品 的 不 同 的 预测 评分 进行 平均 以 
产生 最 终结 果 。 通 过 使 用 不 同 大 小 的 样本 ， 也 可 以 用 与 正 反馈 不 同 的 方法 加 权 负 反馈 。 这 
种 方法 在 假 阳性 和 假 阴 性 加 权 不 同 的 代价 敏感 的 情境 下 很 重要 。 通 常 ， 零 值 的 权重 应 小 于 
非 零 值 ， 因 此 零 值 的 下 采样 是 有 用 的 。 

也 可 以 将 这 些 权重 直接 合并 到 目标 函数 中 ， 并 将 所 有 缺失 值 视 为 0。 零 值 上 的 错误 应 
该 小 于 目标 函数 中 非 零 值 上 的 错误 ， 以 防止 零 值 主导 优化 过 程 。 可 以 使 用 相对 于 特定 精度 
测量 的 交叉 验证 来 确定 相对 权重 ， 或 者 如 文献 [260] 提出 的 以 下 启发 式 方法 来 确定 (i, j) 
的 权重 Wij: 

wy = Lbs ry (3-29) 
在 公式 (3-29) P, ry MARA RRM 0, ON MMA 40. BARI Fe 
rz; 表示 购买 的 数量 而 非 二 元 评分 的 情况 。 在 这 种 情况 下 ， 可 以 将 这 些 量 作为 公式 (3-29) 
中 的 评分 来 计算 权重 ww ， 但 是 分 解 后 的 矩阵 是 量 矩 阵 R==Lr; ] 的 二 元 指标 矩阵 Ri 。 该 
指标 矩阵 Ri 中 的 0 值 与 R 相同 , 但 R 中 的 非 零 值 被 替换 为 1。 因 此 ， 指标 矩阵 的 加 权 因 
子 分 解 方 法 与 图 3-12 的 示例 略 有 不 同 ， 纯 粹 仅 用 作 解 释 目 的 。 

使 用 加 权 条 目 时 ， 可 以 使 用 权重 来 修改 随机 梯度 下 降 法 〈 人 参见 第 6 章 6.5.2.1 47). 
然而 ， 问 题 是 隐 式 反馈 矩阵 完全 已 知 ， 且 许多 梯度 下 降 方法 在 数据 量 大 时 难以 进行 计算 。 
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为 了 避免 处 理 大 量 零 值 导致 的 计算 挑战 ， 在 [260] 中 提出 了 一 种 有 效 〈 加 权 ) ALS 方法 进 
行 因子 分 解 过 程 。 虽 然 这 种 方法 不 强制 因子 非 负 ， 但 可 以 很 容易 地 将 其 推广 到 非 负 情 境 下 。 
3.6.6.4 ”对 喜欢 和 不 喜欢 都 进行 评分 
到 目前 为 止 ， 我 们 对 非 负 抢 阵 分 解 的 讨论 仅 集 中 在 隐 式 反馈 矩阵 上 ， 其 中 有 机 制 来 表 
达 对 物品 的 喜欢 ， 但 没有 机 制 能 表达 不 喜欢 。 因 此 ， 底 层 的 “评分 ”和 矩阵 总 是 非 负 数 。 尽 
管 人 们 可 以 将 非 负 和 矩阵 分 解法 用 于 “名 义 上 ” 非 负 的 评分 (如 1 一 5)， 其 明确 地 指定 了 喜 
欢 和 不 喜欢 ， 但 是 在 这 种 情况 下 非 负 和 矩阵 分 解 并 不 能 带 来 其 特有 的 可 解释 性 优点 。 例 如 ， 
评分 可 以 是 1 一 5， 其 中 值 1 表示 非常 不 喜欢 。 在 这 种 情况 下 ， 不 能 将 未 知 值 视 为 0， 只 能 
使 用 已 知 值 。 如 前 所 述 ， RTE R= ra] 中 的 已 知 值 集 合 表示 为 5S: 
S= {(isj):rj Æ EWA Hy} (3-30) 
根据 这 些 已 知 值 ，( 正 则 化 的 ) 优化 问题 表示 如 下 : 
k k n k 
Minimize J = 5 D (ri — > us * Ujs y’ +25, Su +4 Se 
ES s=1 = = 


GDES i=l s=] j=1s=1 

满足 : 

U>0 

V>0 
该 定义 与 无 约束 矩阵 分 解 的 正则 化 相似 。 唯 一 的 区 别 是 增加 了 非 负 约束 。 在 这 种 情况 下 ， 
需要 修改 用 于 无 约束 矩阵 分 解 的 更 新 方程 。 首 先 ， 必 须 将 辟 和 Y 的 物品 初始 化 为 (0,1) 
内 的 非 负 值 。 然 后 ， 可 以 像 无 约束 和 矩阵 分 解 那样 进行 类 似 的 更 新 。 实 际 上 可 以 直接 使 用 
3.6.4.2 节 中 的 更 新 方程 。 主 要 的 不 同 是 确保 在 更 新 过 程 中 保持 非 负 。 如 果 UU 或 V 的 任何 
部 分 违反 了 非 负 约 束 ， 则 将 其 置 为 0。 和 所 有 随机 梯度 下 降 一 样 ， 更 新 将 一 直 执 行 到 收敛 。 

其 他 方法 也 常 被 用 于 计算 这 些 模型 的 最 优 解 。 例 如 ， 可 以 将 交替 最 小 二 乘法 用 于 非 负 
和 矩阵 分 解 。 主 要 区 别 在 于 最 小 二 乘 回 归 的 系数 被 限制 为 非 负 。 多 种 投影 梯度 下 降 、 坐 标 下 
降 和 非 线性 规划 方法 也 可 用 于 处 理 此 优化 模型 [78'357] 。 

在 评分 可 以 表达 喜欢 和 不 喜欢 的 场景 中 ， 非 负 和 矩阵 分 解 在 解释 性 方面 并 不 优 于 无 约束 
矩阵 分 解 。 这 是 因为 人 们 无 法 从 部 分 和 的 角度 对 解 进行 解释 。 例 如 ， 添 加 三 个 不 喜欢 的 评 
分 无 法 被 解释 为 其 导致 了 喜欢 的 评分 。 此 外 ， 由 于 增加 了 非 负 约束 ， 当 在 已 知 值 上 计算 
时 , 解 的 质量 比 无 约束 和 矩阵 分 解 的 质量 低 。 不 过 这 并 不 总 是 意味 着 在 未 知 值 上 的 计算 结果 
会 更 差 。 在 实际 情况 下 ， 用 户 和 物品 之 间 的 正 相 关 性 比 用 户 和 物品 之 间 的 负 相 关 性 更 为 重 
要 。 因 此 ， 非 负 约 束 往 往 引 入 了 可 以 帮助 避免 过 拟 合 的 偏差 。 与 无 约束 矩阵 分 解 的 情况 类 
似 ， 还 可 以 引入 用 户 和 物品 偏差 以 进一步 改善 整体 性 能 。 


3.6.7 ”理解 矩阵 因子 分 解 方法 族 


很 明显 ， 之 前 各 节 中 的 各 种 矩阵 分 解 有 很 多 共同 之 处 。 所 有 之 前 提 到 的 优化 问题 都 在 
对 因子 矩阵 0 和 的 各 种 约束 下 使 得 剩余 矩阵 (CR 一 UVT) 的 Frobenius 范 数 最 小 化 。 注 
E. 目标 函数 的 目的 是 使 UVT 尽 可 能 近似 评分 矩阵 R。 对 因子 矩阵 的 限制 则 实现 不 同 程 度 
的 可 解释 性 。 事 实 上 ， 更 广泛 的 矩阵 分 解 模型 家 族 可 以 使 用 任何 其 他 目标 函数 或 约束 来 达 
到 很 好 的 近似 。 这 个 更 广泛 的 家 族 可 以 写成 如 下 形式 : 

Optimize J = (xt R#UV 的 匹配 进行 量化 的 目标 函数 ] 
满足 : 
UPV 上 的 约束 
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当 使 用 最 小 化 形式 时 ， 和 矩阵 分 解 方 法 的 目标 函数 有 时 被 称 为 损失 函数 。 注 意 ， 优 化 问 
题 可 以 是 最 小 化 或 最 大 化 问题 ， 但 是 目标 函数 的 目的 总 是 迫使 UYI 尽 可 能 接近 R. Frobe- 
nius 范 数 是 最 小 化 目标 的 一 个 例子 ， 一 些 概率 矩阵 分 解 方法 使 用 最 大 化 公式 ， 如 最 大 似 然 
目标 函数 。 在 大 多 数 情况 下 ， 正 则 化 因子 被 添加 到 目标 函数 中 以 防止 过 拟 合 。 各 种 约束 通 
常用 来 对 这 些 因子 做 出 不 同类 型 的 解释 。 这 种 可 解释 性 的 两 个 例子 是 正 交 性 〈 其 提供 几何 
解释 ) 和 非 负 性 〈 其 提供 部 分 和 解释 ) 。 此 外 ， 尽 管 约束 增加 了 已 知 值 上 的 错误 ， 但 是 当 
它们 具有 有 意义 的 语义 解释 时 ， 其 有 时 可 以 减 小 未 知 值 上 的 错误 。 这 是 因为 约束 减少 了 未 
知 值 的 方差 SS 并 增加 了 偏差 。 因 此 ， 该 模型 具有 更 好 的 通用 性 。 例 如 ,将 U 和 V 的 列 值 固 
定 几 乎 总 是 能 获得 更 好 的 性 能 (参见 3.6.4.5 节 )。 选 择 正确 的 使 用 限制 通常 是 依赖 于 数 
据 的 ， 需 要 了 解 当 前 的 应 用 领域 。 

其 他 形式 的 因子 分 解 可 以 对 因子 给 出 概率 解释 。 例 如 ,考虑 一 个 非 负 一 元 评分 矩阵 R 
被 当 作 相对 频率 分 布 且 其 值 总 和 为 1 的 情景 。 

Sin =1 (3-31) 

i=] j=] 
请 注意 ， 通 过 将 R 除 以 其 值 的 总 和 可 以 轻松 地 将 R 归 一 化 。 这 样 可 以 用 与 SVD 相似 的 方 
式 对 和 矩阵 进行 分 解 : 

R ~ (Q,2,)P, = UVT 

如 在 SVD 中 ， 对 角 和 矩阵 n ERPATRE U=0 中 被 吸收 ， 并 且 物 品 因子 矩阵 Y 被 
设置 为 P;。 与 SVD 的 主要 区 别 在 于 Qx MP. 的 列 不 是 正 交 的 ， 但 它们 是 和 为 1 的 非 负 值 。 
此 外 ， 对 角 阵 Se 的 值 是 非 负 的 ， 和 也 为 1。 这样 的 因子 分 解 有 概率 的 解释 ; EO. Pr 
AS. 包 含 生 成 评分 矩阵 的 概率 参数 。 目 标 函 数学 习 这 个 生成 过 程 的 参数 ， 使 生成 过 程 得 
到 评分 矩阵 的 概率 尽 可 能 大 。 因 此 ， 目 标 函 数 是 最 大 化 形式 。 有 趣 的 是 ， 这 种 方法 被 称 为 
概率 隐语 义 分 析 (PLSA)， 它 可 以 看 作 是 非 负 和 矩阵 分 解 的 概率 变形 。 显 然 ， 这 种 因子 分 解 
的 概率 本 质 使 其 具有 不 同类 型 的 可 解释 性 。 关 于 PLSA 的 详细 讨论 可 以 在 [22] 中 找到 。 
在 许多 这 样 的 问题 中 ， 梯度 下 降 (或 上 升 ) 等 优化 技术 很 有 帮助 。 因 此 ， 大 多 数 这 样 的 方 
法 在 定义 优化 问题 和 底层 解决 方案 方面 的 思想 非常 相似 。 

类 似 地 ， 最 大 裕 量 因子 分 解 口 80'500,569,624 借用 支持 向 量 机 的 想法 ， 为 目标 函数 添加 最 
大 裕 量 正则 化 ， 其 一 些 变 体 [50o 对 离散 评分 特别 有 效 。 这 种 方法 与 3. 6.4 节 讨 论 的 正则 化 
矩阵 分 解 方 法 有 许多 概念 上 的 相似 之 处 。 实 际 上 ， 最 大 裕 量 分 解 的 正则 化 矩阵 与 无 约束 矩 
阵 分 解 中 差不多 。 然 而 ， 匀 链 损耗 (而 非 Frobenius 范 数 ) 被 用 于 量化 近似 误差 。 详 细 讨 
论 这 些 变 体 超出 了 本 书 的 范围 ， 读 者 可 以 查阅 文献 [500，569]。 在 存在 过 拟 合 的 情况 下 ， 
最 大 化 裕 量 通常 提供 比 某 些 其 他 模型 更 好 的 因子 分 解 。 表 3-3 给 出 了 各 种 分 解 模型 及 其 特 
征 的 列表 。 在 大 多 数 情况 下 ， 增 加 诸如 非 负 等 约束 会 降低 已 知 值 的 底层 解 质 量 ， 因 为 它 缩 
小 了 可 行 解 空间 。 因 此 无 约束 和 最 大 裕 量 分 解 能 给 出 最 高 质量 的 全 局 最 优 解 。 然 而 ， 由 于 
在 大 多 数 情况 下 通过 可 用 GE) 方法 难以 发 现 全 局 最 优 ， 所 以 约束 方法 有 时 会 比 无 约束 
方法 更 易 执 行 。 此 外 ， 由 于 过 拟 合 的 影响 ， 已 知 值 的 准确 性 可 能 与 未 知 值 的 准确 性 有 所 不 
同 。 事 实 上 ， 非 负 约束 可 以 提高 某 些 场景 下 未 知 值 的 准确 性 。 某 些 形式 的 因子 分 解 ， 如 非 
负 和 抢 阵 因子 分 解 不 能 应 用 于 有 负 值 的 矩阵 。 显 然 ， 模 型 的 选择 取决 于 问题 的 应 用 场景 、 数 


据 噪声 和 所 需 的 可 解释 程度 。 没 有 方法 能 够 实现 上 述 所 有 目标 。 仔 细 理 解 问题 背景 对 于 选 


o ”有关 协 同 过 滤 中 偏差 方差 折 中 的 讨论 ， 请 参阅 第 6 章 。 
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择 正 确 的 模型 非常 重要 。 


表 3-3 和 矩阵 因子 分 解 方法 族 
x 法 5 R E th 优 缺 点 


最 优质 的 解 ; 对 大 多 数 矩 阵 适 用 ; 正则 化 避免 过 拟 合 ; 可 
解释 性 差 


可 视 化 的 解释 ; 样本 外 推荐 : 适用 于 密集 矩阵 ;语义 可 解 
释 性 差 ， 稀 朴 矩 阵 效果 不 好 


铵 链 损失 十 裕 量 正 最 优质 的 解 ; 避免 过 拟 合 ; 与 无 约束 情况 类 似 ; 可 解释 性 





无 约束 EAR Frobenius 十 正则 化 


SVD Frobenius 十 正则 化 





最 大 裕 量 











规 化 差 ; 适用 于 离散 评分 
优质 解 ; 高 语义 可 解释 性 ; 可 以 同时 对 喜欢 和 不 喜欢 进行 
AE tht REE St iE AE Frobenius 十 正则 化 | 评分 时 可 解释 性 差 ; 一 些 情况 下 较 少 出 现 过 拟 合 ; 最 适合 用 
于 隐 式 反馈 


优质 解 ; 高 语义 可 解释 性 : 概率 可 解释 性 ; 可 以 同时 对 喜欢 
概率 隐语 义 分 析 | 非 负 最 大 似 然 十 正则 化 “| 和 不 喜欢 进行 评分 时 可 解释 性 差 ; 一 些 情况 下 较 少 出 现 过 拟 
合 ; 最 适用 于 隐 式 反馈 


3.7 集成 因子 分 解 和 近邻 模型 


基于 近邻 的 方法 通常 被 认为 与 其 他 优化 模型 有 本 质 上 的 不 同 ， 因 为 它们 具有 启发 式 性 
质 。 然 而 , 第 2 章 2.6 节 显 示 ， 近 邻 方法 也 可 以 在 优化 模型 的 上 下 文中 得 到 理解 。 这 是 一 
个 相当 方便 的 框架 ， 因 为 它 为 近邻 模型 与 其 他 优化 模型 〈 如 潜在 因子 模型 ) 的 集成 铺 平 了 
道路 。 文 献 [309] 中 的 方法 将 第 2 章 2.6.2 节 中 面向 物品 的 模型 与 3. 6. 4. 6 WAY SVD 十 十 
模型 进行 了 集成 。 

假设 评分 矩阵 R 是 均值 中 心 化 的 。 换 句 话说 ,已 经 从 所 有 值 中 减 去 了 评分 矩阵 的 全 局 
平均 值 x， 所 有 的 预测 都 将 以 均值 中 心 化 后 的 值 进行 。 全 局 平均 值 y 可 以 在 后 处 理 阶段 加 
回 到 预测 值 。 基 于 评分 矩阵 R=[rj]」 上 的 此 假设 ,我 们 将 重新 回顾 模型 的 各 个 部 分 。 


3.7.1 基准 估计 : 非 个 性 化 偏 倚 中 心 模型 


非 个 性 化 偏 倚 中 心 的 模型 单纯 作为 用 户 和 物品 偏差 的 补充 预测 了 R 中 的 以 均值 中 心 
化 的 ) 的 评分 。 换 名 话说， 评分 是 完全 由 用 户 的 慷慨 程度 和 物品 的 流行 程度 来 解释 的 ， 而 
不 是 用 户 的 具体 和 个 性 化 的 兴趣 。 令 以” 表示 用 户 i EA On a BEE 是 物品 /的 偏 倚 变 
量 。 那么 此 模型 的 预测 如 下 : 


fi == ge 二 Bim (3-33) 
S S 表示 与 评分 矩阵 中 已 知 值 相 对 应 的 下 标 构 成 的 集合 。 
S=({G,jirg 是 已 观测 的 } (3- 33) 
然后 ， 可 以 基于 已 知 值 上 的 错误 ej =rij — ra te Be BOR Bie OY" FOI” : 
Minimize J = EF (rij 一 六 ye A ON e: ye) 


GES 


对 S 中 每 个 已 知 的 〈i，7) praca ee eee 
此 优化 问题 : 
bi =bys* 十 ale; = Ab) 
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bimep + aCe — abire™) 

梯度 下 降 的 基本 框架 与 图 3-9 类 似 ， 除 了 优化 变量 的 选择 和 相应 更 新 步 又 有 所 差异 。 有 趣 
的 是 ， 纯 偏 倚 中 心 模型 通常 可 以 提供 合理 的 预测 ， 尽 管 它 是 非 个 性 化 的 。 当 评分 数据 的 量 
有 限时 尤其 如 此 。 在 求解 了 by 和 be 的 值 之 后 ， 根 据 公式 (3-32), 将 Bi 作为 预测 值 
Fjo R By 的 这 个 值 被 当 作 常数 而 非 变量 。 因 此 ， 集 成 模型 求解 的 第 一 步 是 通过 求解 
非 个 性 化 模型 来 确定 常数 值 Bi 。 此 非 个 性 化 模型 也 可 以 被 视 为 基准 估计 ， 因 为 By 是 对 评 
分 ri 的 值 的 粗略 基准 估计 。 从 每 个 已 知 的 ri 中 减 去 Bi 的 值 会 得 到 一 个 新 的 和 矩阵， 进而 可 
以 通过 前 面 章节 中 讨论 的 大 多 数 模型 更 加 健壮 地 估计 。 本 节 提 供 了 一 个 具体 的 例子 ， 说 明 
如 何 使 用 基准 估计 器 来 调整 近邻 模型 ， 尽 管 其 适用 范围 更 广泛 。 


3.7.2 模型 的 近邻 部 分 
我 们 重申 公式 (2-29) (参见 第 2 章 2. 6. 2 节 ) 的 基于 近邻 的 预测 如 下 : 
wien Š (ry 一 pyser — bue™ ) 


I€E QD 
VIQ OT 
虽然 上 述 式 子 与 第 2 章 的 公式 (2-29) 相同 ， 但 下 标 符号 改变 了 ， 以 确保 与 本 节 中 潜在 因 
子 模型 一 致 。 这 里 OP 是 用 户 偏 倚 ，6y*” 是 物品 偏 傈 。 变 量 记 呈 表示 物品 上 和 物品 j 之 间 
的 物品 一 物品 回归 系数 。 集 合 Qi (i) 表示 9 已 经 由 用 户 i 评分 的 物品 j 的 K 个 最 近 物 品 构 
RETE. Iih AR (3-34) 中 的 BS OS 被 替换 为 常数 Bz (使 用 前 面 的 方法 导 
出 )。 得 出 的 预测 如 下 : 


Fij = a +> Bere 4 (3-343 


S) wit™ (ry — Bu) 
EQ 


VIQ OT 
(AERA. OS MON" 是 要 优化 的 参数 ， 而 Bi 是 常数 。 可 以 建立 除 正则 化 项 之 外 的 
求 和 平方 误差 ejy ?三 (rj 一 ry)? 的 和 的 优化 模型 。 随 机 梯度 下 降 法 可 用 于 确定 模型 近邻 部 
分 的 解 。 所 得 到 的 梯度 下 降 步 骤 如 下 : 
breab Haley — Abi) 


pma piem + alei 4 Abie) 


Pg = OF Lo + (3-35) 





eg whee Ba 
VIG] 

通过 引入 物品 -物品 隐 式 反馈 变量 cj ， 可 以 进一步 增强 该 近邻 模型 的 隐 式 反馈 。 基 本 

BEE., WRA mj SAA i 的 许多 相 邻 物品 一 起 评分 ， 则 应 该 对 预测 的 评分 rj 产生 影 


item item 
wy Hwy; +a, ( 


do wi jv! EQ) 


>, cj 
H, ; yl 7 此 E a ` 站 ma, 
响 。 这 种 影响 与 j 的 这 些 相 邻 物 品评 分 的 实际 值 无 关 ， 该 影响 等 于 TT 请 注意 


使 用 V O (让 | 来 缩放 表达 式 是 为 了 在 不 同 的 用 户 一 物品 组 合 中 调整 稀 玖 性 的 级 别 。 进 而 ， 
包含 隐 式 反馈 的 近邻 模型 可 以 写成 如 下 形式 : 


”请 注意 ,我 们 用 大 写 变量 K 来 表示 定义 Qj;(i) 的 近邻 的 大 小 ， 这 与 第 2 章 2. 6. 2 节 的 不 同 。 用 小 写 变 量 人 来 
表示 因子 和 矩阵 的 维 数 。 OAK 的 值 通常 是 不 同 的 。 
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Dd) wit » Ga — Ba) >) og 
Py = ber pe ES 十 -一 2 (3-36) 
JIGO STQ 
在 构建 关于 误差 oj 二 rj 一 ?5 的 最 小 二 乘 优 化 模型 时 ， 可 以 计算 梯度 并 得 到 随机 梯度 下 降 
步骤 。 这 会 引出 以 下 修改 后 的 更 新 操作 : 
br eb + alej — Ab) 
ae epim Fale; — apren ) 
eij > (rit — Bz) 
JIGO 





it 
wien wi 十 a, ( 


— Ad i wh VLE QM 


cy Hcy + ay (Feat Aan Gy VLE Q;(i) 
文献 [309] 中 的 工作 假定 了 一 个 更 一 般 的 框架 ， 其 中 隐 式 反馈 和 矩阵 不 一 定 仅 来 自 于 评分 
拖 阵 。 例 如 ， 零 售 商 可 以 基于 浏览 、 评 分 或 购买 物品 的 用 户 创建 隐 式 评分 和 矩阵。 通过 将 公 


Ch 
(3-36) 终 项 改变 a i (i) i 近邻 的 集合 〈 j 
A 的 最 终 项 改变 为 VCA 这 里 Q 是 用 户 的 最 近邻 的 集 基于 显 
式 评分 )， 其 还 为 物品 7 提供 了 某 种 形式 的 隐 式 反馈 。 虽 然 我 们 将 一 直 使 用 隐 式 反馈 和 矩阵 
从 评分 矩阵 导出 这 一 简单 假设 ， 但 该 修改 也 可 以 应 用 于 模型 的 潜在 因子 部 分 。 


3.7.3 模型 的 潜在 因子 部 分 
上 述 预 测 是 基于 近邻 模型 进行 的 。3. 6. 4.6 节 介绍 了 相应 的 潜在 因子 模型 ， 其 使 用 隐 
式 反 馈 与 评分 信息 相 结合 进行 预测 。 RURE 一 节 中 复制 公式 (3-21) WF: 
i 2 S (u 
j=l hel, 


如 3.6.4.6 WETE, 1 表示 用 户 ii 评 分 的 物品 集 。 nerves HIERE Y= yn] 包含 隐 式 
反馈 变量 ， 其 构造 如 3.6.4.6 节 所 述 。 此 外 , U 的 第 (k 十 2) 列 仅 包含 1，yV 的 第 (k 十 1) 
IAEE 1, Y 的 最 后 两 列 为 0。 请 注意 ， 公 式 (3- 37) 的 右 侧 已 经 解释 了 用 户 和 物品 的 


k 十 2 


偏 傈 。 由 于 因子 矩阵 的 最 后 两 列 包含 偏 傈 变量 ， 所 以 公式 (3-37) 的 分 量 D usv 包含 偏 
s=1 
倚 项 。 


3.7.4 集成 近邻 和 潜在 因子 部 分 


现在 可 以 将 公式 (3- 36) 和 公式 (3-37) 中 的 两 个 模型 集成 ， 以 给 出 单个 预测 值 ， 如 
下 所 示 : 





JT) o (3-37) 


F whem a (ri = Bz) y Cl 


k+2 











ij LEQ C) LEQ. (i) Jikel 
fy = gai a 1 (« us + >) =} su (3-38) 
i VIGO ANES et, VII $ 

近邻 组 件 Tre 


注意 ， 这 里 缺少 公式 (3-36) HARMAD OPS 十 6*"， 因 为 它们 被 包含 在 潜在 因子 模型 
的 最 终 项 中 。 现 在 ， 模 型 的 两 个 组 件 共 享 相同 的 用 户 和 物品 偏 倚 。 
在 (已 知 值 集合 ) S 上 最 小 化 平方 误差 6; 二 (ri 一世 ?的 和 的 相应 优化 问题 如 下 : 
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k+2 m 


Minimize J = + >»; (ry — ry)? +> 7 2 | 2u + Ue «t+ Quy) 
=i = = 


GES s=1 


+25) Cee + 4] 
j=1lE UQ 4) 


满足 : 
U 的 第 (十 2) 列 只 包含 1 
VV 的 第 (k 十 1) 列 只 包含 1 
Y 的 最 后 两 列 只 包含 0 
利用 公式 (3- 38) 可 以 实现 上 述 目标 函数 中 的 #5; 的 值 。 如 在 所 有 潜在 因子 模型 中 ， 优 化 
变量 的 平方 和 被 包含 在 内 以 用 于 正则 化 。 注 意 ， 不 同 的 参数 Mar 分别 用 于 从 潜在 因子 
模型 和 近邻 模型 中 正则 化 变量 集合 ， 从 而 在 优化 过 程 中 获得 更 好 的 灵活 性 。 


3.7.5 求解 优化 模型 


与 本 章 讨论 的 所 有 其 他 优化 模型 类 似 ， 我 们 用 梯度 下 降 法 解决 优化 问题 。 在 这 种 情况 

下 ， 优 化 模型 是 相当 复杂 的 ， 因 为 它 包 含 较 多 的 物品 和 变量 。 解决 优 化 模型 的 方法 与 

3. 6. 4. 6 节 的 潜在 因子 模型 完全 相同 。 使 用 对 于 每 个 优化 变量 的 偏 导数 来 导出 更 新 步骤 。 

我 们 省 略 了 梯度 下 降 步 骤 的 推导 ， 并 且 在 这 里 简单 地 根据 误差 值 ej Sry 一 7j 来 表示 它们 。 
对 于 评分 和 矩阵 中 的 每 个 已 知 值 Gj) ES 可 以 使 用 以 下 规则 : 
Uig uig + alex * Vq —A* Ug) VQ E (lek +2} 


hq 
mo +a(es + [ua + Z Asja ‘vn Vae (1 «k +2} 
eij * Vig 


ym ym a(t — A+ 9m) Yg (Leek +2), Yhe L 








wien au + a, (i - wi vie QU) 
fT- de “cy VLE QW 
重 置 U、V 和 YY 的 固定 列 的 扰动 项 

前 三 个 更 新 也 可 以 写成 (十 2) 维 向 量化 形式 。 参 照 SVD 十 十 的 那 节 来 理解 上 述 更 新 规 
则 中 的 下 标 。 我 们 用 随机 梯度 下 降 法 反复 循环 遍历 S 中 所 有 已 知 值 。 随 机 梯度 下 降 的 基本 
算法 框架 如 图 3- 9 所 示 。a 的 值 控制 与 模型 的 潜在 因子 部 分 相关 联 的 变量 的 步 长 ， 则 控 
制 与 模型 的 近邻 部 分 相关 联 的 变量 的 步 长 。 根 据 优化 模型 的 约束 , U、V 和 YY 的 固定 列 不 
应 该 被 这 些 规则 更 新 。 这 在 实践 中 通过 在 迭代 结束 时 将 它们 重 置 为 固定 值 来 实现 。 此 外 ， 
根据 优化 模型 的 约束 ， 这 些 列 总 是 初始 化 为 其 固定 值 。 正 则 化 参数 可 以 通过 在 训练 期 间 保 
留 已 知 值 的 一 小 部 分 来 进行 选择 ， 并 调整 被 保留 值 上 的 准确 度 。 更 有 效 的 方法 是 使 用 第 7 
章 中 讨论 的 交叉 验证 方法 。 对 模型 的 近邻 和 潜在 因子 部 分 使 用 不 同 的 步 长 和 正则 化 参数 尤 
其 重要 ， 这 可 以 避免 得 到 很 差 的 结果 。 


3.7.6 关于 精度 的 一 些 观察 
在 文献 [309] 中 显示 ， 组 合 模型 提供 了 与 每 个 单独 模型 的 结果 更 好 的 结果 。 这 是 因 
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为 组 合 模型 能 够 适应 数据 集 的 不 同 部 分 的 特征 。 基 本 思想 与 混合 推荐 系统 中 经 常 使 用 的 
(参见 第 6 章 ) 用 于 组 合 不 同类 型 的 模型 的 想法 类 似 。 可 以 基于 加 权 平 均 来 组 合 两 个 模型 
的 预测 结果 ， 权 值 可 以 通过 之 前 提 过 的 hold-out 或 交叉 验证 方法 来 学 习 。 然 而 ， 与 取 平 均 
值 的 模型 相 比 ， 本 节 的 集成 模型 更 加 强大 。 一 个 原因 是 偏 倚 变量 由 两 个 组 成 部 分 共享 ， 这 
阻止 了 偏 倚 变量 过 拟 合 到 每 个 模型 的 具体 细节 。 此 外 ， 公 式 (3-38) 的 预测 函数 在 优化 过 
程 中 自动 选择 每 个 变量 的 适当 值 来 隐 式 地 调节 模型 的 每 部 分 的 重要 性 。 因 此 ， 这 种 集成 通 
常 提 供 非 常 好 的 预测 精度 。 然 而 ， 该 模型 的 性 能 只 是 略微 优 于 SVD 十 十 ， 具 体 结果 与 数据 
集 相 关 。 需 要 记 住 的 一 个 问题 是 ， 近 邻 模 型 有 比 SVD 十 十 更 多 的 参数 要 优化 。 除 非 数 据 集 
足够 大 ， 和 否则 近邻 部 分 将 无 法 获得 其 显著 的 优势 。 对 于 较 小 的 数据 集 ， 增 加 参数 的 数量 往 
往 会 导致 过 拟 合 。 在 这 个 意义 上 ， 在 非 对 称 因子 模型 、 包 含 偏 倚 的 纯 SVD、SVD 十 十 以 及 
集成 近邻 的 因子 分 解 之 间 做 出 的 恰当 选择 往往 取决 于 手头 数据 集 的 大 小 。 更 复杂 的 模型 需 
要 较 大 的 数据 集 以 避免 过 拟 合 。 对 于 非常 小 的 数据 集 ， 使 用 非 对 称 因子 模型 就 能 做 到 最 
好 。 对 于 非常 大 的 数据 集 ， 集 成 近邻 的 因子 分 解 模型 是 最 好 的 选择 。 在 大 多 数 情境 下 ， 
SVD 十 十 通常 比 (包含 偏 倚 的 ) AE SVD 更 好 。 


3.7.7 将 潜在 因子 模型 集成 到 任意 模型 


潜在 因子 模型 与 基于 近邻 的 模型 的 集成 为 前 者 与 其 他 类 型 的 模型 (如 基于 内 容 的 方 
法 ) 集成 提供 了 有 用 的 提示 。 这 种 集成 自然 地 导致 创建 混合 推荐 系统 。 一 般 来 说 ， 物 品 的 
简介 可 能 以 产品 说 明 的 形式 提供 。 类 似 地 ， 用 户 可 能 已 经 明确 地 创建 了 描述 其 兴趣 的 画 
像 。 假 设 用 户 i 的 画像 由 关键 词 向 量 C， 表示 ， 关 键 词 向 量 Ci*m 则 表示 物品 j 的 画像 。 此 
Sb, (APH i WERE HRS 表示 ， 物 品 j 的 已 知 评分 由 Rm 表示。 这样 就 可 以 写 出 
预测 函数 的 一 般 形式 如 下 所 示 : 


ry = KUIV y Hp FCA Cem, RET, RE) (3-39) 
E oe 
潜在 因子 部 分 另 一 个 预测 模型 


RE, p 是 控制 两 个 模型 的 相对 重要 性 的 平衡 因子 。 第 三 项 FCC ,CY*™，, RET, RE) 
是 用 户 画 像 、 物 品 画像 、 用 户 评分 和 物品 评分 的 参数 化 函数 。 可 以 与 潜在 因子 联合 优化 该 
函数 的 参数 ， 以 使 公式 (3-39) 中 的 预测 误差 最 小 化 。 

近邻 和 潜在 因子 模型 的 集成 可 以 被 视 为 这 种 方法 的 特例 ， 其 中 函数 FO 是 仅 使 用 
RY" 并 忽略 所 有 其 他 参数 的 线性 回归 函数 。 然 而 ， 可 以 通过 改变 函数 FO 的 选择 来 得 到 
这 种 方法 的 (几乎 ) 无 穷 多 个 变形 。 也 可 以 通过 使 用 其 他 数据 来 源 〈 如 社交 数据 、 位 置 或 
时 间 ) 来 扩大 FO 的 范围 。 事 实 上 ， 几 乎 任何 以 参数 化 预测 函数 形式 提出 的 协同 过 滤 模 
型 都 可 以 与 潜在 因子 模型 相 结 合 。 在 相关 文献 中 提出 了 许多 方法 ， 它 们 将 各 种 基于 特征 的 
回归 、 主 题 建 模 或 其 他 新 颖 的 数据 源 与 潜在 因子 模型 相 结合 。 例 如 ， 社 会 正则 化 方法 ( 参 
见 第 11 章 11. 3. 8 节 ) 将 潜在 因子 模型 与 社会 诚信 信息 相 结 合 ， 以 改进 预测 。 通 过 识别 新 
的 数据 来 源 ， 可 以 在 推荐 系统 中 改进 现 有 技术 水 平 ， 其 预测 能 力 可 以 使 用 上 述 框架 与 潜在 
因子 模型 集成 在 一 起 。 


3,8 小结 


本 章 讨论 了 多 种 协同 过 滤 模 型 。 协 同 过 滤 问 题 可 以 看 作 是 分 类 问题 的 泛 化 。 因 此 ， 适 
用 于 分 类 的 许多 模型 也 可 以 通过 泛 化 应 用 于 协同 过 滤 。 一 个 显著 的 例外 是 针对 协同 过 滤 问 
题 的 潜在 因子 模型 。 潜 在 因子 模型 使 用 不 同类 型 的 因子 分 解 来 预测 评分 。 这 些 不 同 的 因子 
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分 解 在 其 目标 函数 性 质 和 对 其 基础 矩阵 的 约束 上 有 所 不 同 。 此 外 ， 它 们 在 准确 性 、 过 拟 合 

和 可 解释 性 方面 可 能 有 不 同 的 权衡 。 潜 在 因子 模型 是 协同 过 滤 中 最 先进 的 技术 。 基 于 目标 
函数 和 优化 约束 的 选择 ， 可 以 提出 各 种 潜在 因子 模型 。 潜 在 因子 模型 还 可 以 与 近邻 方法 相 
合 ， 以 构建 集成 模型 来 同时 获得 潜在 因子 模型 和 近邻 方法 的 优势 。 


3.9 相关 工作 


协同 过 滤 的 问题 与 分 类 密切 相关 。 大 量 文献 中 提出 了 许多 推荐 系统 ， 通 过 修改 各 种 分 
类 模型 来 给 出 推荐 。 文献 [82] 讨论 了 协同 过 滤 和 分 类 之 间 的 关系 。 最 早 的 基于 关联 的 方 
法 在 文献 [524] 中 给 出 。 文 献 [358，359，365] 中 给 出 了 许多 使 用 现 有 物品 的 支持 度 的 
加 强 方法 ， 甚 中 前 两 种 方法 利用 用 户 关联 而 非 物品 关联 358,.359] 。 基 于 关联 规则 的 系统 已 经 
在 基于 Web 的 个 性 化 和 推荐 系统 中 被 发 现 是 非常 有 用 的 [41'555 。 关 联 规则 方法 可 以 与 近 
邻 方法 组 合 ， 以 便 在 物品 之 间或 用 户 之 间 提 取 局 部 关联 号 ] 。 局 部 关联 通常 能 提供 比 全 局 
的 基于 规则 的 方法 更 精细 的 推荐 。 在 文献 [437] 中 讨论 了 如 何 使 用 贝 叶 斯 方法 进行 协同 
过 滤 。 文 献 [219] 提出 了 基于 概率 关系 模型 进行 协同 过 滤 的 方法 。 文 献 [638] 讨论 了 推 
荐 系统 中 的 支持 向 量 机 方法 。 

最 近 ， 神 经 网 络 也 被 用 于 协同 过 滤 1519'679J 。 受 限 玻 尔 兹 曼 机 (RBM) 是 一 个 具有 一 
个 输入 层 和 一 个 隐藏 层 的 神经 网 络 。 这 种 网 络 已 被 用 于 协同 过 滤 559] ， 其 中 可 见 单 元 对 应 
于 物品 ， 在 每 阶段 中 对 所 有 用 户 进行 训练 。 用 户 对 物品 的 评分 会 激活 可 见 单元 。 由 于 
RBM 可 以 在 单元 内 使 用 非 线性 ， 它 们 有 时 会 优 于 潜在 因子 模型 。RBM 使 用 大 参数 空间 的 
因子 分 解 表示 来 减少 过 拟 合 ， 并 且 在 Netflix 比赛 中 被 证 明 是 非常 准确 的 。 分 解 参数 表示 
这 种 基本 思想 也 被 用 于 其 他 的 新 方法 ， 如 分 解 机 [493] 。 

关于 各 种 维 数 降低 方法 的 详细 讨论 可 以 在 文献 [22] 中 找到 。 在 文献 [525] 中 提出 
了 使 用 基于 近邻 的 过 滤 降 维 方法 。 文 献 L24, 525] 各 自 独立 地 最 早 讨 论 了 潜在 因子 模型 
的 作用 ， 以 之 独立 作为 推荐 和 缺失 值 填充 的 方法 。 文 献 [24] 的 工作 结合 了 EM 算法 和 洪 
在 因子 模型 来 估计 缺失 值 。 单 独 用 潜在 因子 方法 对 于 协同 过 滤 特 别 有 效 ， 目 前 是 最 先进 的 
方法 。Paterek 在 文献 [473] 中 讨论 了 正则 化 潜在 因子 方法 ， 其 还 介绍 了 潜在 因子 模型 中 
用 户 和 物品 偏 倚 的 概念 。 在 这 项 工作 中 讨论 了 非 对 称 因子 模型 ， 其 中 用 户 不 被 潜在 因子 明 
确 表 示 ， 此 种 情况 下 用 户 因子 被 表示 为 她 所 评价 的 物品 的 隐 含 因子 的 线性 组 合 ， 从 而 减少 
要 学 习 的 参数 的 数量 。 事 实 上 ，Paterek (相对 被 忽视 ) 的 工作 [5 几乎 引入 了 后 来 以 各 种 
方式 组 合 和 完善 309"311,313 的 所 有 基本 创新 用 以 创建 最 好 的 方法 ， 如 SVD 十 十 。 

早期 文献 中 33,252,300,500,569,666] 展示 了 如 何 将 不 同形 式 的 矩阵 分 解 用 于 推荐 。 和 矩阵 分 解 
的 各 种 形式 之 间 的 区 别 在 于 目标 (损失 ) 函数 和 因子 矩阵 约束 。 文 献 [371] 中 的 方法 提 
出 了 核 协同 过 滤 的 概念 ， 其 发 现 了 评分 分 布 的 非 线性 超 平 面 ， 这 种 方法 能 够 对 更 复杂 的 评 
分 分 布 进 行 建 模 。 这 些 不 同类 型 的 因子 分 解 在 结果 质量 、 过 拟 合 和 可 解释 性 方面 做 出 了 不 
同 的 权衡 。 文 献 [96]」 中 讨论 了 和 矩阵 分 解 的 增 量 式 协同 过 滤 。 

基本 目标 函数 和 约束 的 许多 变 体 被 用 于 不 同形 式 的 矩阵 分 解 。 文 献 [180，500，569， 
624] 探索 了 最 大 被 量 因 子 分 解 ， 其 与 无 约束 矩阵 分 解密 切 相 关 ， 主 要 区 别 在 于 ,在 目标 
函数 中 使 用 最 大 裕 量 正则 化 矩阵 与 匀 链 损失 ， 而 不 是 使 用 误差 和 矩阵 的 Frobenius 范 数 来 量 
化 损耗 。 文 献 (252, 666] 讨论 了 矩阵 的 非 负 分 解 ， 关 于 完整 数据 上 的 非 负 和 矩阵 分 解 的 详 
细 讨 论 可 以 在 文献 [22，537] 中 找到 。 文 献 [666] 探讨 了 基于 Frobenius 范 数 的 传统 非 
负 因 子 分 解 方法 ， 而 文献 【252，517] 探索 了 和 矩阵 分 解 的 概率 形式 。 一 些 概率 版 本 也 使 
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Frobenius 范 数 最 小 化 ， 但 同时 会 对 正则 化 进行 优化 。 文 献 [518] 讨论 了 贝 叶 斯 方法 与 矩 
阵 分 解 方 法 (为 了 准确 地 确定 正则 化 参数 ) 的 组 合 ， 其 使 用 吉 布 斯 采样 来 实现 这 一 目标 。 
文献 [331] 讨论 了 非 负 和 矩阵 分 解 方 法 的 初始 化 技术 。 在 通过 Netflix 比赛 中 推广 潜在 因 
子 模型 之 后 ,一 些 其 他 的 基于 因子 分 解 进行 协同 过 滤 的 方法 被 提出 B%'312.33] 。 最 早 使 用 
隐 式 反馈 的 潜在 因子 模型 之 一 在 文献 [260] 中 提出 。 本 书 中 的 SVD 十 十 描述 借鉴 自 文 
献 [309]。 最 近 的 一 项 工作 串通 过 对 建立 UVT 的 Frobenius 范 数 的 惩罚 机 制 来 使 得 未 知 
值 具有 较 低 的 评分 ， 基 本 思想 是 对 高 评分 施加 惩罚 。 这 种 方法 比 文献 [309] 中 使 用 的 偏 
倚 更 强 ， 因 为 其 明确 地 假定 未 知 评分 具有 较 低 的 值 。 此 外 ， 文献 [184] 中 的 评分 是 非 负 
数 ， 因 此 Frobenius 范 数 会 在 较 大 程度 上 惩罚 高 评分 。 一 些 潜在 因子 方法 [209 展示 了 诸如 
SVD 二 十 之 类 的 技术 如 何 与 基于 回归 的 近邻 方法 相 结 合 (参见 3.7 节 )， 从 而 合并 了 线性 
回归 与 因子 分 解 模型 。 在 文献 [127」 中 讨论 了 基于 奇异 值 分 解 的 矩阵 分 解 方法 。 文献 
[267] 讨论 了 具有 辅助 信息 的 协同 过 滤 和 矩阵 的 归纳 和 矩阵 补 全 方法 。 

在 文献 172, 309, 342, 434, 620, 669] 中 讨论 了 各 种 基于 回归 的 模型 。 文 献 
[669] 提供 了 线性 分 类 器 的 一 般 检 验 ， 如 最 小 二 乘 回 归 和 支持 向 量 机 (SVM)。 尽 管 它 仅 
用 于 只 有 积极 的 偏好 可 用 的 隐 式 反馈 数据 集 ， 如 Web 点 击 数据 或 销售 数据 ， 但 这 是 线性 
方法 的 最 早 尝 试 之 一 。 据 观察 ， 此 情况 下 的 协同 过 滤 在 形式 上 与 文本 分 类 很 相似 。 然 而 ， 
由 于 数据 噪声 和 类 分 布 的 不 平衡 性 ， 直 接 使 用 SVM 方法 有 时 效果 不 好 。 为 了 提供 更 准确 
的 结果 ,文献 [669] 建议 对 损失 函数 进行 修改 。 该 方法 表明 ， 通 过 在 SVM 优化 中 使 用 二 
次 损失 函数 ， 可 以 更 接近 最 小 二 乘 。 修改 后 的 SVM 与 最 小 二 乘法 相近 ， 甚 至 更 优 。 文 
献 [72，309] 中 的 方法 与 基于 近邻 的 方法 密切 相关 ， 它 们 在 第 2 章 2.6 节 中 讨论 。 文献 
[620] 使 用 线性 模型 集合 ， 其 被 建 模 为 普通 最 小 二 乘 问题 。 文 献 [342] 中 讨论 了 基于 回 
归 的 模型 ， 如 slope-one 预测 器 。 如 第 2 章 2.6 节 所 述 ， 回 归 模 型 能 够 显示 基于 模型 的 方 
法 与 基于 近邻 的 方法 之 间 的 形式 化 的 关联 关系 572'309。 文 献 [13] 讨论 了 回归 与 潜在 因子 
模型 的 其 他 组 合 方法 。 文 献 [321，455] 研究 了 各 种 类 型 的 稀疏 线性 模型 (SLIM)， 将 近 
邻 方法 与 回归 和 和 抢 阵 分 解 相 结 合 ， 主 要 用 于 隐 式 反馈 数据 集 。 

大 量 的 工作 已 经 开始 研究 如 何 选择 底层 优化 问题 的 解决 方案 。 例 如 ， 文献 [351] 进 
行 了 梯度 下 降 与 随机 梯度 下 降 之 间 权 衡 的 讨论 ， 并 提出 了 小 批量 方法 来 弥合 两 者 之 间 的 差 
距 。 交 替 最 小 二 乘法 在 文献 (268, 677] 中 讨论 。 文献 [460] 在 讨论 完整 矩阵 的 正和 矩阵 
分 解 时 提出 了 交替 最 小 二 乘法 的 原始 思想 。 文献 [217] 提出 了 洪 在 因子 模型 中 大 规模 分 
布 随机 梯度 下 降 的 方法 。 随 机 下 降 与 交替 最 小 二 乘法 之 间 的 主要 折 中 是 要 权衡 稳定 性 与 效 
率 。 前 一 种 方法 更 有 效率 ， 而 后 者 更 为 稳定 。 有 文献 指出 ， 坐 标 下 降 方法 [ss501 可 以 在 保持 
稳定 性 的 同时 兼顾 效率 。 文 献 L651) 表明 ， 非 参数 方法 对 于 使 用 潜在 因子 模型 的 大 规模 
协同 过 滤 有 一 些 优势 。 在 文献 [676] 中 讨论 了 潜在 因子 模型 中 解决 冷 启动 问题 的 方法 。 
Netflix 比赛 在 潜在 因子 模型 的 历史 上 有 特别 突出 的 贡献 ， 因 为 它 为 有 效 地 运用 这 些 模型 
提供 了 一 些 有 用 的 经 验 教训 [53] 。 最 近 ， 潜 在 因子 模型 已 被 用 于 建立 更 丰富 的 用 户 偏好 。 
例如 ， 文献 [322] 中 的 工作 展示 了 如 何 将 全 局 偏 倚 与 特定 于 兴趣 的 偏好 结合 起 来 以 提出 


3.10 JÆ 


1. 实现 一 个 基于 决策 树 的 预测 器 来 对 不 完整 的 数据 集 预 测评 分 。 使 用 本 章 描述 的 降 维 方法 。 
2. 如 果 评 分 是 [一 1，1] 之 间 的 实数 ， 那 么 你 将 如 何 使 用 基于 规则 的 协同 过 滤 系 统 ? 





[136 | 


138 


> 


an 


a 


102 #3 


. 设计 一 种 将 关联 规则 方法 与 聚 类 结合 在 一 起 的 算法 ， 用 来 发 现 一 元 数据 中 的 局 部 关联 。 这 种 方法 与 基 


于 vanilla 规则 的 方法 相 比 有 什么 优势 ? 


. 本 章 讨论 的 朴素 贝 叶 斯 模型 预测 使 用 用 户 的 其 他 评分 作为 条 件 来 预测 每 个 物品 的 评分 。 试 设计 一 个 使 


用 某 物 品 的 其 他 评分 作为 条 件 的 贝 叶 斯 模型 。 讨 论 两 种 模型 各 自 的 优 缺点 ， 以 及 两 种 模型 能 够 更 好 工 
作 的 情况 。 你 会 如 何 组 合 两 类 模型 来 做 出 预测 ? 


. 假设 一 个 商家 有 一 个 一 元 矩阵 ， 包 含 各 种 客户 的 购买 行为 。 和 矩阵 中 的 每 个 值 指示 了 客户 是 否 购 买 了 某 


个 物品 。 对 于 尚未 购买 物品 的 用 户 ， 商 家 希望 按 其 购买 倾向 性 的 顺序 排列 所 有 用 户 。 试 用 贝 叶 斯 模型 
来 实现 这 一 目标 。 


. 使 用 表 3-1 中 的 贝 叶 斯 模型 来 确定 John 将 来 可 能 购买 面包 的 概率 。 将 表 中 的 0 作为 实际 评分 值 而 非 缺 


失 值 (John 对 面包 和 和 牛肉 的 评分 除外 )。 请 确定 他 将 来 可 能 购买 牛肉 的 可 能 性 。John 更 有 可 能 在 未 来 
购买 面包 还 是 牛肉 ? 


7. 实现 基于 朴素 贝 叶 斯 模型 的 协同 过 滤 。 


oO 


oo 


. 通过 将 缺失 值 视 为 0， 执行 表 3-2 中 和 矩阵 的 简单 2 秩 SVD。 根 据 SVD 的 使 用 ， 用 户 3 的 缺失 值 的 预测 


评分 是 多 少 ? 比较 结果 与 3. 6. 5.4 节 的 示例 中 使 用 不 同 初始 化 的 结果 。 同 时 ， 比 较 结果 与 使 用 本 章 描 
述 的 贝 叶 斯 模型 获得 的 结果 。 


. 假设 给 定 一 个 可 以 被 分 解 为 R=UVY7T 的 矩阵 R, HP U 的 列 是 相互 正 交 的 , V 的 列 也 是 相互 正 交 的 。 


展示 如 何 将 R 因子 分 解 为 3 NERE, ERA OUP’, Hep PAO 的 列 是 正 交 的 , 史 是 非 负 对 角 和 矩阵 。 


10. 用 随机 梯度 下 降 和 批量 更 新 来 实现 无 约束 矩阵 分 解 。 
ll. 当 限 定 用 户 因子 矩阵 的 最 后 一 列 仅 包 含 1 时 ， 讨 论 使 用 交 蔡 最 小 二 乘法 的 无 约束 矩阵 分 解 所 需 的 变 


化 ， 物 品 因子 矩阵 的 倒数 第 二 列 仅 包含 1。 该 方法 对 于 将 用 户 和 物品 偏 傈 纳入 无 约束 矩阵 分 解 中 是 非 
常 有 用 的 。 


12. 讨论 如 何 应 用 交替 最 小 二 乘法 设计 具有 隐 式 反馈 的 潜在 因子 模型 。 
13. & mXk EEF, nXk RARE V A nX k ERE Y On 3.6.4.6 节 中 的 非 对 称 因 子 模 型 部 分 所 述 来 定义 。 假 


设 使 用 不 包含 用 户 和 物品 偏 倚 的 非 对 称 因子 模型 的 简化 配置 。 
(a) 展示 评分 矩阵 R 中 的 每 个 已 知 值 (i，j) 的 随机 梯度 下 降 更 新 如 下 : 


Vig Ug tale . Pp Fis a va) Yq € {lek} 


In Eu ta( TETA Im) Vg E (lh) VA E N 
这 里 ， ey =r; — Py EE AE Ci, j) 上 的 误差 ，I 是 用 户 i 已 经 评分 的 物品 的 集合 。 
CD) 需要 对 各 种 和 矩阵 的 定义 以 及 考虑 用 户 和 物品 偏 倚 的 更 新 策略 进行 哪些 更 改 ? 
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基于 内 容 的 推荐 系统 





形式 必须 有 内 容 ， 内 容 必 须 与 本 质 相 关 。 
一 一 Alvar Aalto 


4.1 引言 


前 几 章 讨论 的 协同 系统 使 用 用 户 评分 模式 的 相关 性 来 给 出 推荐 。 而 另 一 方面 ， 这 些 方 
法 并 不 使 用 物品 的 属性 来 计算 预测 评分 一 一 这 似乎 相当 浪费 。 毕 竟 ， 如 果 John 喜欢 科幻 
电影 《Terminator》， 那 么 他 很 可 能 会 喜欢 属于 同类 别 的 《Aliens》。 在 此 情况 下 ， 根 据 其 
他 用 户 的 评分 无 法 做 出 有 意义 的 推荐 。 基 于 内 容 的 系统 设计 时 尝试 使 用 描述 性 的 属性 集 来 
描述 物品 。 在 这 种 情况 下 ， 用 户 自己 的 评分 和 对 其 他 电影 的 评分 动作 足以 帮助 我 们 发 现 有 
意义 的 推荐 。 当 某 个 物品 是 新 的 并 且 对 其 评分 很 少时 ， 这 种 方法 非常 有 用 。 

基于 内 容 的 推荐 系统 尝试 为 用 户 匹配 那些 与 其 喜欢 的 物品 相似 的 物品 。 这 种 相似 性 不 
一 定 基 于 用 户 之 间 的 评分 相关 性 ， 而 是 基于 用 户 喜 欢 的 对 象 的 属性 。 不 同 于 使 用 与 目标 用 
户 相关 的 其 他 用 户 评分 的 协同 过 滤 方 法 ， 基 于 内 容 的 系统 更 关注 目标 用 户 自 己 的 评分 ， 以 
及 用 户 喜 欢 的 物品 的 属性 。 因 此 ， 其 他 用 户 在 基于 内 容 的 系统 中 扮演 的 角色 不 太 重 要 。 换 
句 话说， 基于 内 容 的 方法 利用 不 同 的 数据 源 来 给 出 推荐 。 正 如 我 们 将 在 第 6 章 中 看 到 的 那 
样 ， 许 多 推荐 系统 同时 利用 了 这 两 种 优势 ， 这 样 的 推荐 系统 被 称 为 混合 推荐 系统 。 

在 基础 层面 上 ， 基 于 内 容 的 系统 依赖 于 两 个 数据 来 源 : 

1) 第 一 个 数据 来 源 是 根据 以 内 容 为 中 心 的 属性 对 各 种 物品 的 描述 ， 例 如 制造 商 对 物 
品 的 文本 描述 。 

2) 第 二 个 数据 源 是 用 户 画像 ， 其 根据 用 户 对 各 种 物品 的 反馈 而 生成 。 用 户 可 能 有 显 
式 或 隐 式 的 反馈 ， 显 式 反馈 可 以 对 应 于 评分 ， 而 隐 式 反馈 可 以 对 应 于 用 户 动作 ， 其 中 评分 
通过 与 协同 系统 类 似 的 方式 收集 。 

用 户 画 像 将 各 种 物品 的 属性 与 用 户 兴趣 〈 评 分 ) 相关 联 。 用 户 画 像 的 一 个 简单 例子 是 
描述 物品 的 经 过 标签 标记 的 训练 文档 ， 用 户 评 分 作为 标签 ， 分 类 或 回归 模型 用 于 将 物品 属 
性 与 用 户 评 分 关联 起 来 。 具 体 的 用 户 画 像 严 重 依赖 于 所 使 用 的 方法 。 例 如 ， 可 以 在 一 个 场 
景 下 使 用 显 式 评分 ， 也 可 以 在 另 一 个 场景 下 使 用 隐 式 反馈 。 用 户 也 可 以 根据 感 兴趣 的 关键 
词 定制 自己 的 个 人 画像 ， 这 种 方法 与 基于 知识 的 推荐 系统 有 一 些 共 同 的 特征 。 

值得 注意 的 是 ， 在 基于 内 容 的 推荐 算法 中 ， 其 他 用 户 的 评分 通常 没有 任何 作用 。 这 既 
是 优势 也 是 劣势 ， 要 视 具 体 情况 而 定 。 一 方面 ,在 冷 启动 方案 中 ， 如 果 没 有 关于 其 他 用 户 
评分 的 信息 可 用 ， 只 要 有 足够 的 用 户 自己 的 兴趣 信息 可 用 ， 那 就 仍 可 以 使 用 基于 内 容 的 推 
荐 方法 。 这 一 点 至 少 部 分 地 减轻 了 推荐 系统 中 其 他 用 户 很 少时 的 冷 启动 问题 。 此 外 ， 当 一 
个 物品 是 新 的 时 ， 不 可 能 获得 关于 该 物品 的 其 他 用 户 评 分 。 基 于 内 容 的 方法 可 以 在 这 种 情 
况 下 给 出 推荐 ， 因 为 这 种 方法 可 以 从 新 物品 中 提取 属性 ， 并 使 用 它们 进行 预测 。 另 一 方 
面 ， 新 用 户 的 冷 启动 问题 无 法 用 基于 内 容 的 推荐 系统 来 解决 。 此 外 ， 由 于 不 使 用 其 他 用 户 
的 评分 ， 推 荐 物品 的 多 样 性 和 新 颖 性 被 削弱 。 在 许多 情况 下 ， 推 荐 的 物品 可 能 对 用 户 来 
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说 是 非常 明显 的 感 兴趣 物品 ， 或 者 可 能 是 用 户 之 前 购买 过 的 其 他 物品 。 这 是 因为 基于 内 容 
的 属性 总 是 会 推荐 与 用 户 过 去 看 到 的 物品 有 类 似 属 性 的 物品 。 具 有 相似 属性 的 物品 通常 很 
难 给 用 户 带 来 惊喜 。 上 述 优点 和 缺点 将 在 后 续 章 节 中 讨论 。 

基于 内 容 的 系统 主要 适用 于 手 里 有 大 量 可 用 的 属性 信息 的 场景 。 在 许多 情况 下 ， 这 些 
属性 是 从 产品 描述 中 提取 的 关键 词 。 事 实 上 绝 大 多 数 基于 内 容 的 系统 从 底层 对 象 中 提取 文 
本 属性 。 因 此 ， 基 于 内 容 的 系统 特别 适合 在 文本 丰富 和 非 结 构 化 数据 中 提供 建议 。 使 用 这 
种 系统 的 一 个 典型 例子 是 网 页 推荐 ， 如 可 以 利用 用 户 之 前 的 浏览 行为 来 创建 基于 内 容 的 推 
荐 系统 。 然 而 ， 这 种 系统 的 使 用 不 仅仅 限于 Web。 产 品 说 明 中 的 关键 词 用 于 创建 物品 和 用 

140] 户 画 像 ， 从 而 为 其 他 电子 商务 场景 提供 推荐 。 在 其 他 情况 下 ， 除 了 关键 词 之 外 ， 还 可 以 使 
用 制造 商 、 分 类 和 价格 等 关系 属性 。 这 些 属性 可 以 用 于 创建 能 够 在 关系 数据 库 中 存储 的 结 
构 化 表示 。 在 这 些 情况 下 ， 有 必要 在 单一 结构 化 表示 中 组 合 结构 化 和 非 结 构 化 属性 。 然 
而 ， 基 于 内 容 的 系统 的 基本 原理 在 使 用 结构 化 或 非 结构 化 表示 时 是 相同 的 。 这 是 因为 结构 
化 数据 上 的 大 多 数学 习 方法 在 非 结构 化 领域 都 有 直接 的 推广 ， 反 之 亦 然 。 为 了 保持 一 致 
性 ， 本 章 的 讨论 将 集中 在 非 结构 化 情况 下 。 然 而 ， 大 多 数 方法 很 容易 适应 结构 化 场景 。 

基于 内 容 的 系统 与 基于 知识 的 推荐 系统 密切 相关 。 各 种 类 型 的 系统 之 间 的 关系 摘要 在 
第 1 章 的 表 1-2 中 提供 。 与 基于 内 容 的 系统 一 样 ， 基 于 知识 的 推荐 系统 使 用 物品 的 内 容 属 
性 来 提出 建议 。 主 要 区 别 在 于 基于 知识 的 系统 支持 明确 规定 用 户 需求 以 及 用 户 与 推荐 系统 
之 间 的 交互 。 知 识 库 与 交互 结合 使 用 ， 以 将 用 户 需 求 与 物品 相 匹 配 。 而 基于 内 容 的 系统 通 
常 使 用 基于 历史 评分 的 学 习 方 法 。 因 此 ， 基 于 知识 的 系统 在 推荐 过 程 中 为 用 户 提供 更 好 的 
控制 ， 而 基于 内 容 的 系统 更 有 效 地 利用 过 去 的 行为 。 不 过 这 些 差 异 并 不 那么 重要 ， 一些 基 
于 内 容 的 方法 也 允许 用 户 明 确 指 定 他 们 的 兴趣 资料 。 许 多 系统 在 统一 的 框架 内 同时 支持 学 
习 和 交互 。 这 样 的 系统 被 称 为 混合 推荐 系统 。 第 5 章 讨论 基于 知识 的 推荐 系统 ， 而 第 6 章 
讨论 混合 推荐 系统 。 

本 章 组 织 如 下 : 4. 2 节 概 述 基于 内 容 的 推荐 系统 的 基本 组 件 ; 4. 3 节 讨 论 特征 提取 和 
选择 方法 ; 4.4 节 给 出 学 习 用 户 画 像 并 将 其 用 于 推荐 的 过 程 ; 4.5 节 比 较 协 同 过 滤 和 基于 
内 容 的 系统 的 主要 特性 ; 4. 6 节 探 讨 协同 过 滤 和 基于 内 容 的 方法 之 间 的 联系 ; 4.7 节 总 结 
全 章 。 


4.2 基于 内 容 的 系统 的 基本 组 件 


基于 内 容 的 系统 具有 一 些 基 本 组 件 ， 这 些 组 件 在 这 种 系统 的 不 同 实例 中 保持 不 变 。 由 
于 基于 内 容 的 系统 具有 关于 用 户 的 各 种 物品 描述 和 知识 ， 因 此 必须 将 这 些 不 同类 型 的 非 结 
构 化 数据 转换 为 标准 化 描述 。 在 大 多 数 情 况 下 ， 优 先 的 选择 是 将 物品 的 描述 转换 为 关键 
词 。 因 此 ， 基 于 内 容 的 系统 在 很 大 程度 上 〈 但 并 不 仅仅 ) 被 用 来 操作 文本 数据 ， 其 常见 的 
应 用 场景 也 是 以 文本 为 中 心 的 。 例 如 ， 新 闻 推 荐 系统 通常 是 基于 内 容 的 系统 ， 它 们 也 是 以 
文本 为 中 心 的 系统 。 一 般 说 来 ， 文 本 分 类 和 回归 建 模 方法 广泛 用 来 建立 基于 内 容 的 推荐 
系统 。 
基于 内 容 的 系统 的 主要 组 件 包括 (离线 ) 预 处 理 部 分 、 (离线 ) 学 习 部 分 和 在 线 预测 
部 分 。 离 线 部 分 用 于 创建 汇总 模型 〈 一 般 是 分 类 或 回归 模型 )， 然 后 将 该 模型 用 于 在 线 生 
成 给 用 户 的 推荐 。 基 于 内 容 的 系统 的 各 个 组 成 部 分 如 下 : 
1) 预 处 理 和 特征 提取 : 基于 内 容 的 系统 广泛 应 用 于 各 种 领域 ， 如 网 页 、 产 品 描述 、 
Laj) 新闻、 音乐 功能 等 。 在 大 多 数 情况 下 ， 特 征 提 取 自 这 些 不 同 的 数据 来 源 ， 并 被 转换 成 基于 





关键 词 的 向 量 空间 表示 。 这 是 所 有 基于 内 容 的 推荐 系统 的 第 一 步 ， 它 是 与 领域 高 度 相 关 
的 。 然 而 ， 正 确 提 取 最 具 信 息 性 的 特征 对 于 有 效 运行 基于 内 容 的 推荐 系统 来 说 至 关 重 要 。 

2) 基于 内 容 的 用 户 画像 学 习 : 如 前 所 述 ， 基 于 内 容 的 模型 与 给 定 的 用 户 密切 相关 。 
因此 ， 需 要 构建 特定 于 用 户 的 模型 ， 进 而 根据 他 们 过 去 的 购买 或 评分 历史 来 预测 用 户 对 物 
品 的 兴趣 。 为 了 实现 这 一 目标 ， 需 要 利用 用 户 反 馈 ， 这 可 以 通过 当前 已 知 评分 〈 显 式 反 
馈 ) 或 用 户 活动 〈 隐 式 反 馈 ) 的 形式 表现 。 这 些 反馈 与 物品 的 属性 一 起 使 用 以 建立 训练 数 
据 ， 从 而 构建 学 习 模型 。 本 阶段 通常 与 分 类 或 回归 建 模 基 本 相同 ， 这 取决 于 反馈 是 分 类 
〈 例 如 是 否 选 择 物品 的 二 元 操作 ) 还 是 数字 (例如 评分 或 购买 频率 ) 类 型 的 。 因 为 所 得 到 
的 模型 在 概念 上 将 用 户 兴趣 〈 评 分 ) 与 物品 属性 关联 起 来 ， 所 以 该 模型 被 称 为 用 户 画像 。 

3) 过 滤 和 推荐 : 在 此 步骤 中 ， 使 用 上 一 步 学 习 的 模型 对 特定 用 户 给 出 推荐 的 物品 。 
因为 推荐 需要 实时 进行 ， 所 以 这 个 步骤 的 效率 是 非常 重要 的 。 

在 以 下 各 节 中 ， 我 们 将 详细 介绍 每 个 阶段 。 第 二 阶段 的 学 习 经 常 使 用 现成 的 分 类 模 
型 。 数 据 分 类 本 身 是 一 个 广泛 研究 的 领域 ， 详 细 讨论 分 类 模型 超出 了 本 书 的 范围 。 因 此 ， 
在 本 章 中 ， 我 们 将 假设 读者 已 经 熟悉 分 类 模型 。 本 章 的 目标 是 展示 如 何 将 特定 的 分 类 模型 
用 作 推 荐 系统 中 的 黑 盒 ， 并 介绍 特别 适用 于 基于 内 容 的 推荐 系统 的 分 类 模型 。 本 章 会 给 出 
两 个 最 常用 的 模型 的 简要 描述 。 对 于 不 熟悉 分 类 模型 的 读者 ， 参 考 书目 中 会 给 出 一 些 有 用 
的 资源 。 


4.3 预 处 理 和 特征 提取 


所 有 基于 内 容 的 模型 的 第 一 阶段 是 提取 用 于 表示 物品 的 鉴别 性 特征 。 鉴 别 性 特征 是 能 
在 预测 用 户 兴 趣 时 发 挥 巨大 作用 的 特征 。 这 一 阶段 与 具体 应 用 高 度 相 关 ， 如 网 页 推荐 系统 
与 产品 推荐 系统 就 是 截然 不 同 的 。 


4.3.1 特征 提取 


在 特征 提取 阶段 ， 不同 物品 的 描述 会 被 提取 出 来 。 尽 管 我 们 可 以 使 用 任意 一 种 表示 ， 
例如 多 维 数据 表示 ， 但 最 常见 的 方法 是 从 底层 数据 中 提取 关键 词 。 做 出 这 种 选择 是 因为 非 
结构 化 文本 描述 通常 在 各 种 领域 中 广泛 使 用 ， 并 且 它 们 仍然 是 最 自然 的 描述 物品 的 方式 。 
在 许多 情况 下 ， 可 以 用 多 个 字段 来 描述 物品 的 各 个 方面 。 例 如 ， 书 商 可 能 会 提供 书籍 的 文 
字 描 述 ， 以 及 描述 内 容 、 标 题 和 作者 的 关键 词 。 在 一 些 情 况 下 这 些 描述 会 被 转换 成 一 系列 
的 关键 词 。 而 在 其 他 情况 下 ， 可 以 直接 使 用 多 维 (结构 化 ) 表 示 。 当 属性 包含 数值 (如 价 
格 ) 或 从 某 个 较 小 的 域 中 取出 的 值 〈 如 颜色 ) 时 ， 后 者 更 为 适用 。 

为 了 便于 在 分 类 过 程 中 使 用 ， 各 字段 需要 适当 加 权 。 特 征 加 权 与 特征 选择 密切 相关 ， 
因为 前 者 是 后 者 的 “ 软 ” 版 本 。 在 后 一 种 情况 下 ， 特 征 基于 其 相关 性 被 选择 或 被 放弃 ; 而 
在 前 一 种 情况 下 ， 特 征 则 基于 其 重要 性 被 赋予 不 同 的 权 值 。 特 征 选择 问题 将 在 4. 3.4 节 详 
细 讨 论 。 由 于 特征 提取 阶段 与 具体 应 用 高 度 相 关 ， 我 们 在 此 讨论 的 是 不 同 应 用 场景 下 应 当 
提取 的 特征 的 类 型 。 

4.3.1.1 产品 推荐 示例 

考虑 一 个 电影 推荐 网 站 SIMDblss9] ， 甚 提供 个 性 化 的 电影 推荐 。 每 部 电影 通常 与 电影 
描述 相关 联 ， 例 如 其 简介 、 导 演 、 演 员 、 类 型 等 。 在 IMDb 网 站 上 对 《Shrek》 的 简短 描 
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述 如 下 : 
“在 沼泽 地 充满 神奇 的 生物 之 后 ， 怪 物 史 瑞 克 同意 为 邪恶 国王 弗 瓜 拯救 菲 欧 

娜 公主 ， 以 便 挽回 他 的 沼泽 地 。” 
许多 其 他 属性 (如 用 户 标签 ) 也 可 以 使 用 ， 可 将 其 视 为 内 容 为 中 心 的 关键 词 。 

在 《Shrek》 的 例子 里 ， 可 以 简单 地 连接 各 个 字段 中 的 所 有 关键 词 来 创建 文本 描述 ， 
其 主要 问题 在 于 推荐 过 程 中 各 关键 词 的 重要 性 可 能 并 不 相同 。 例 如 ， 特 定 的 演员 在 推荐 中 
的 重要 性 可 能 要 超过 摘要 中 的 某 个 词 。 这 可 以 通过 两 种 方式 解决 : 

1) 领域 相关 的 知识 可 以 用 来 决定 关键 词 的 重要 性 。 例如， 电影 名 和 主演 可 能 比 描述 
中 的 单词 更 重要 。 许 多 时 候 这 个 过 程 是 以 试探 性 的 启发 式 方式 进行 的 。 

2) 在 许多 情况 下 ， 自 动 学 习 各 特征 的 重要 性 是 可 能 的 。 该 过 程 被 称 为 特征 加 权 ， 与 
特征 选择 密切 相关 。 特 征 加权 和 特征 选择 都 将 在 后 文中 进行 描述 。 

4.3.1.2 网 页 推荐 示例 

Web 文档 需要 专门 的 预 处 理 技术 ， 因 为 其 在 结构 上 有 一 些 共 性 ， 且 其 中 包含 了 许多 链 
He. Web 文档 预 处 理 的 两 个 主要 方面 包括 删除 不 重要 的 文档 部 件 〈 例 如 标签 ) 和 充分 利用 
文档 的 具体 结构 。 

Web 文档 中 的 字段 的 重要 性 各 不 相同 。HTML 文档 中 有 许多 字段 ， 如 标题 、 元 数据 
和 文档 的 正文 。 通 常 ， 分 析 算 法 对 待 这 些 字段 的 重要 性 级 别 不 同 ， 因 此 它们 的 权重 也 不 
同 。 例 如 ， 文 档 的 标题 被 认为 比 正 文 更 重要 ， 因 此 有 更 高 的 权重 。 另 一 个 Web 文档 特殊 
处 理 的 示例 是 销 文 本 。 锚 文本 包含 链接 指向 的 网 页 的 描述 。 由 于 其 是 描述 性 的 ， 所 以 被 认 
为 是 重要 的 ,但 它 有 时 与 页 面 本 身 的 主题 无 关 。 因 此 ， 通 常会 将 它 从 文本 中 删除 。 如 果 可 
能 ， 在 某 些 情况 下 ， 锚 文本 可 以 添加 到 它 指 向 的 文档 的 文本 当中 。 这 是 因为 锚 文本 通常 是 
其 指向 的 文档 的 摘要 描述 。 可 以 自动 学 习 这 些 特性 的 重要 程度 ， 这 将 在 4. 3. 4 节 中 讨论 。 

网 页 常 被 组 织 成 与 页 面 的 主要 主题 无 关 的 内 容 块 。 一 个 典型 的 网 页 将 有 许多 无 关 的 方 
块 ， 例 如 广告 、 免 责 声明 或 通知 ， 这 对 于 挖掘 不 太 有 帮助 。 已 经 有 结论 表明 ， 当 仅 使 用 主 
块 中 的 文本 时 挖掘 结果 的 质量 会 得 到 改善 。 然 而 ， 如 何 〈 自 动 ) 确定 Web 内 容 中 的 主 块 
本 身 就 是 一 个 数据 挖掘 中 正 被 研究 的 问题 。 虽 然 将 网 页 分 解 为 块 很 容易 ， 但 有 时 很 难 识别 
谁 是 主 块 。 大 多 数 用 于 确定 主 块 的 自动 化 方法 依赖 于 以 下 事实 : 特定 站 点 通常 将 对 其 所 有 
文档 使 用 类 似 的 布局 。 因 此 ， 网 站 的 文档 结构 通常 通过 提取 标签 树 来 学 习 。 然 后 ， 再 通过 
使 用 树 匹 配 算法 50884663 提取 其 他 主 块 。 机 器 学 习 方 法 也 可 用 于 此 任务 。 例 如 ， 标 记 页 面 
主 块 的 问题 可 以 视 为 分 类 问题 。 我 们 在 4. 8 节 会 讨论 一 些 从 Web 文档 中 提取 主 块 的 
方法 。 

4.3.1.3 音乐 推荐 示例 

潘多拉 网 络 电台 [s833 是 一 个 著名 的 音乐 推荐 引擎 ， 它 将 音 轨 与 音乐 基因 组 计划 57%3] 中 
提取 的 特征 相关 联 。 这 种 音 轨 特 征 的 例子 包括 “出 神 特征 基础 音 ”“ 合 成 重复 乐 段 "”“ 调 性 
和 声 ”“ 直 鼓 节 拍 ” 等 。 用 户 最 初 可 以 指定 一 个 他 们 感 兴趣 的 曲目 来 创建 一 个 “电台 ”。 从 
这 个 单一 的 训练 示例 开始 ， 为 用 户 推荐 类 似 的 歌曲 。 对 于 这 些 推荐 的 歌曲 ， 用 户 可 以 标记 
喜欢 或 不 喜欢 。 

用 户 反 馈 用 于 构建 更 精细 的 音乐 推荐 模型 。 值 得 注意 的 是 ， 即 使 在 这 种 情况 下 底层 特 
征 是 完全 不 同 的 ， 它们 也 可 以 被 视 为 关键 词 ， 而 给 定 歌曲 的 “文档 ”对 应 于 与 之 相关 联 的 
一 系列 关键 词 。 或 者 也 可 以 将 特定 属性 与 这 些 不 同 的 关键 词 相 关联 ， 从 而 得 到 结构 化 多 维 
表示 。 
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与 基于 内 容 的 推荐 系统 相 比 ， 感 兴趣 音 轨 的 初始 确定 过 程 更 类 似 于 基于 知识 的 推荐 系 
统 。 这 种 基于 知识 的 推荐 系统 被 称 为 基于 案例 的 推荐 系统 。 然 而 ， 当 利用 评分 来 提供 推荐 
时 ， 该 方法 变 得 更 加 类 似 于 基于 内 容 的 推荐 系统 。 在 许多 情况 下 ， 潘 多 拉 还 提供 了 基于 物 
品 属 性 的 推荐 的 解释 。 


4.3.2 特征 表示 和 清洗 


此 过 程 在 使 用 非 结构 化 表示 时 显得 尤为 重要 。 特 征 提取 阶段 能 够 从 产品 或 网 页 的 非 结 
构 化 描述 中 得 到 一 系列 单词 。 然 而 ， 这 些 表示 需要 被 清洗 并 以 适当 的 格式 表示 以 便 处 理 。 
清洗 过 程 包含 以 下 几 个 步骤 : 

1) 停止 词 删除 : 从 物品 的 自由 描述 中 提取 的 大 部 分 文本 将 包含 许多 与 物品 相关 性 不 
强 的 常用 词 。 这 样 的 词 通常 是 高 频 词 。 例 如 ，“a”“an” 和 “the” 这 样 的 词 对 于 正在 处 理 
的 物品 来 说 没什么 作用 。 在 电影 推荐 应 用 中 ， 通 常会 在 剧情 介绍 中 找到 这 样 的 词 。 一 般 来 
说 ， 冠 词 、 介 词 、 连 词 和 代词 被 视 为 停止 词 。 在 大 多 数 情 况 下 ， 各 种 语言 都 有 停止 词 的 标 
准 化 列表 。 

2) ATER: 词 干 提取 过 程 合 并 了 同一 个 词 的 不 同 变形 。 例如， 同一 单词 的 单 复数 
或 不 同时 态 会 被 合并 。 在 一 些 情况 下 ， 会 从 各 种 词汇 中 提取 共同 的 词根 。 例 如 ，“hoping” 
和 “hope” 这 样 的 词汇 被 合并 成 了 共同 的 词根 “hop”。 当 然 ， 词 干 提取 有 时 会 产生 副 作 
用 ， 因 为 类 似 于 “hop” 这 样 的 词 可 能 具有 多 种 不 同 的 含义 。 许 多 现成 的 工具 [710 ?7121 可 用 
于 词 干 提取 。 

3) 上 短语 提取 : 这 一 步 工作 是 检测 出 文档 中 频繁 同时 出 现 的 单词 。 例 如 ,， “hot dog” 
这 样 的 短语 具有 与 组 成 它 的 单词 不 同 的 含义 。 短 语 提 取 可 以 基于 手动 定义 的 字典 进行 ， 也 
可 以 使 用 一 些 自动 化 的 方法 [44,364,400] 。 

执行 这 些 步 又 后 ， 关 键 词 被 转换 为 向 量 空间 表示 。 每 个 单词 也 称 为 项 。 在 向 量 空间 表 
示 中 ,文档 被 表示 为 一 组 单词 及 它们 出 现 的 频率 。 尽 管 使 用 单词 出 现 的 原始 频率 可 能 是 诱 
人 的 想法 ， 但 这 通常 不 可 取 。 因 为 经 常 出 现 的 词 通常 在 统计 学 上 差异 较 小 ， 所 以 这 些 词 经 
常 被 降低 权重 。 这 与 停止 词 的 原理 相似 ， 只 不 过 采用 的 是 “ 软 ” 的 权重 打折 的 方式 ， 而 不 
是 完全 剔除 。 

如 何 对 单词 打折 ? 这 可 以 基于 逆 文 档 频 率 的 概念 来 实现 。 第 i 项 的 道 文 档 频率 idi 是 
其 出 现 过 的 文档 数量 n; 的 递减 函数 。 

id; = log(n/n;) (4-1) 
其 中 集合 中 的 文档 总 数 由 n 表示 。 

此 外 需要 注意 的 是 ， 集 合 中 出 现 频率 过 高 的 单个 词 的 重要 性 并 不 高 。 例 如 ， 当 从 不 可 
靠 来 源 或 开放 式 平台 (如 Web) 收集 物品 描述 时 ， 其 将 包含 大 量 垃圾 信息 。 为 了 达到 上 述 
目的 ， 可 以 对 相似 度 计 算 之 前 的 频率 应 用 阻尼 函数 f(，) 〈 如 平方 根 或 对 数 ) 。 

fla) 一 MT 
f(a) 一 log(zi) 

频率 阻尼 是 可 选 的 且 经 常 被 省 略 。 省 略 阻尼 过 程 等 效 于 令 fan 等 于 xi。 第 i 个 字 的 

归 一 化 频率 h(z;) 通过 组 合 逆 文 档 频率 与 阻尼 函数 来 定义 : 
hay) = flai)id; (4-2) 
该 模型 通常 被 称 为 tt-idf 模型 ， 其 中 tf 表示 术语 频率 ，idf 表示 逆 文 档 频率 。 
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4.3.3 收集 用 户 的 偏好 


除了 关于 物品 的 内 容 之 外 ， 还 需要 为 推荐 过 程 收 集 用 户 喜 欢 和 不 喜欢 的 相关 数据 。 数 
据 收 集 离线 完成 ， 而 推荐 过 程 则 在 用 户 与 系统 交互 时 在 线 完成 。 我 们 将 在 任何 给 定时 间 执 
行 预测 的 用 户 称 为 活动 用 户 。 在 在 线 阶 段 ， 需 要 将 用 户 自 己 的 偏好 与 内 容 相 结合 以 提供 偏 
好 预测 。 有 关 用 户 喜 欢 和 不 喜欢 的 数据 可 以 采取 以 下 形式 表示 : 

1) 评分 : 在 这 种 情况 下 ， 用 户 通 过 评分 来 表示 他 们 对 物品 的 偏好 。 评 分 可 以 是 二 元 
的 、 基 于 区 间 的 或 者 基于 顺序 的 。 在 极 少数 情况 下 ， 评 分 甚至 可 以 是 实数 。 评 分 的 性 质 对 
学 习 用 户 画像 的 模型 有 重要 的 影响 。 

2) BAAR: 隐 式 反馈 是 指 用 户 的 行为 ， 例 如 购买 或 浏览 物品 。 在 大 多 数 情况 下 ， 
只 能 捕获 用 户 的 正面 偏好 和 隐 式 反馈 ， 而 难以 获得 明确 的 负面 偏好 信息 。 

3) LAMA: 在 很 多 情况 下 ， 用户 可 以 用 文本 的 形式 表达 观点 。 在 这 种 情况 下 ， 可 
以 从 这 些 观点 中 提取 隐 含 的 评分 。 这 种 形式 的 评分 提取 与 意见 挖掘 和 情感 分 析 有 关 。 对 此 
的 讨论 超出 了 本 书 的 范围 ， 感 兴趣 的 读者 请 参考 文献 [364]. 

4) 案例 : 用 户 可 以 指定 他 们 感 兴趣 的 物品 的 示例 (或 案例 )， 这 可 以 用 作 最 近邻 或 
Rocchio 分 类 器 的 隐 式 反馈 。 然 而 ， 当 相似 性 检索 与 精心 设计 的 效用 函数 结合 使 用 时 ， 这 
些 方法 与 基于 案例 的 推荐 系统 更 紧密 相关 。 基 于 案例 的 系统 是 基于 知识 的 推荐 系统 的 子 
类 ， 其 使 用 领域 知识 来 发 现 匹 配 物品 ， 而 不 是 学 习 算 法 (参见 第 5 章 5. 3. 1 节 )。 基 于 内 
容 的 推荐 系统 的 结束 和 基于 知识 的 推荐 系统 的 开始 情况 通常 很 难 描绘 。 例 如 ， 潘 多 拉 网 络 
电台 经 常 使 用 一 个 有 趣 的 音乐 专辑 的 初始 案例 为 具有 类 似 音 乐 物品 的 用 户 设置 “广播 电 
合 ”。 在 后 面 的 阶段 ， 用 户 对 喜欢 和 不 喜欢 的 反馈 被 用 来 进一步 改进 推荐 。 因 此 ， 该 方法 
的 第 一 部 分 可 以 被 视 为 基于 知识 的 系统 ， 第 二 部 分 可 以 被 视 为 基于 内 容 (或 协同 ) 的 
系统 。 

在 所 有 上 述 情况 下 ， 用 户 对 物品 的 喜欢 或 不 喜欢 最 终 被 转换 为 一 元 、 二 元 、 基 于 区 间 
的 或 实数 评分 。 获 取 评 分 的 过 程 也 可 以 被 看 作 是 提取 要 用 于 学 习 的 类 标签 或 因 变 量 的 过 程 。 


4.3.4 监督 特征 选择 和 加 权 


特征 选择 和 加 权 的 目标 是 确保 在 向 量 空 间 表 示 中 只 保留 提供 信息 最 多 的 词 。 事 实 上 ， 
许多 著名 的 推荐 系统 [5 引 明确 提出 ， 应 该 限制 关键 词 数量 。 在 文献 [476] 中 ， 多 个 领 
域 的 实验 结果 表明 提取 的 词 数 应 在 50 一 300 之 间 。 基 本 思想 是 噪声 单词 常常 导致 过 拟 合 ， 
因此 应 该 提前 删除 。 当 考虑 到 可 用 于 学 习 特定 用 户 画 像 的 文档 数量 通常 不 是 很 大 时 ， 这 一 
点 尤为 重要 ， 因 为 当 可 用 于 学 习 的 文档 数量 很 少时 ， 模 型 会 更 倾向 于 过 拟 合 。 因 此 ， 减 小 
特征 空间 至 关 重 要 。 

向 文档 表示 中 引入 特征 信息 量 可 以 从 两 个 不 同 的 方面 来 考虑 。 一 个 是 特征 选择 ， 对 应 
于 删除 单词 。 第 二 个 是 特征 加 权 ， 这 涉及 词 的 重要 程度 。 停 止 词 删除 和 使 用 逆 文 档 频率 分 
别 是 特征 选择 和 特征 加 权 的 例子 。 然 而 ， 这 些 是 无 监督 的 特征 选择 和 加 权 方 式 ， 用 户 反馈 
对 其 来 说 不 重要 。 在 本 节 中 ， 我 们 将 研究 特征 选择 的 有 监督 方法 ， 结 合用 户 评分 来 评估 特 
征 的 信息 量 。 大 多 数 这 些 方法 评估 因 变 量 对 特征 的 敏感 性 ， 从 而 评估 其 信息 量 。 

特征 信息 量度 量 一 方面 可 以 用 于 特征 的 硬性 选择 ， 另 一 方面 也 可 以 使 用 关于 信息 的 函 
数 来 启发 式 地 对 特征 加 权 。 针 对 用 户 评分 是 被 视 为 数字 或 类 别 值 的 不 同情 况 ， 特 征 信息 量 
的 度量 也 不 同 。 例 如 ， 在 二 元 评分 (或 具有 少量 离散 值 的 评分 ) 的 场景 下 ， 使 用 类 别 而 不 
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是 数字 是 更 有 意义 的 。 我 们 讨论 一 些 常 用 于 特征 加 权 的 方法 。 在 大 多 数 后 文 描述 中 ， 我们 
将 假设 使 用 了 非 结构 化 (文本) 的 表示 ， 尽 管 这 些 方法 也 可 以 很 容易 地 被 概括 为 结构 化 
(多 维 ) 的 表示 。 这 是 因为 文本 的 向 量 空间 表示 可 以 被 视 为 多 维 表示 的 特殊 情况 。4. 8 节 
给 出 了 关于 特征 选择 方法 的 参考 文献 。 

4.3.4.1 基尼 指数 

基尼 指数 是 特征 选择 最 常用 的 度量 之 一 。 这 是 一 个 简单 直观 的 度量 ， 很 容易 理解 。 基 
尼 指 数 本 质 上 适用 于 二 元 评分 、 顺 序 评分 或 分 布 在 少量 区 间 中 的 评分 值 。 最 后 一 种 情况 有 
时 可 以 通过 离散 化 评分 来 获得 。 评 分 的 顺序 被 忽略 ， 评 分 的 每 个 可 能 值 均 被 视 为 一 个 类 别 
值 。 这 可 能 看 起 来 像 是 一 个 缺点 ， 因 为 它 丢 失 了 关于 评分 相对 顺序 的 信息 。 然 而 ， 在 实践 
中 ， 可 能 的 评分 数 通常 很 小 ， 因 此 整体 上 不 会 损失 精度 。 

令 上 为 评分 的 可 能 值 的 总 数 。 在 包含 特定 单词 w 的 文档 中 ， 令 p(w) p(w) 表示 在 
这 上 个 可 能 值 中 的 每 一 个 相关 的 文档 数目 。 那 么 ， 单 词 w 的 基尼 指数 定义 如 下 : 


t 
Gini(w) = 1— J} p: (w)? (4-3) 


i=1 
Gini(w) 的 值 总 是 位 于 范围 (0, 1 一 1/t) 中 ， 较 小 的 值 表示 更 大 的 区 分 能 力 。 例 如 ， 
当 单 词 w 的 存在 总 是 导致 文档 被 评 为 第 j 个 可 能 的 评分 值 ( 即 pj (mw) =1) 时 ， 这 个 单词 
对 于 评分 预测 是 非常 有 区 分 能 力 的 。 相 应 地 ， 在 这 种 情况 下 ， 基 尼 指 数 的 值 为 1 一 1? = 二 0。 


当 p(w) 的 每 个 值 都 等 于 1/t 时， 基尼 指数 取 最 大 值 1 一 > (1/2) =1-1/t. 
i=] 


4.3.4.2 W 

MERE SA AE RW. RTEA ERRER REE. A HT A ta 
一 样 ， 令 t 为 评分 的 可 能 值 的 总 数 ，p1(w)…pi(w) 表示 包含 特定 词 w 的 文档 中 与 + 个 可 
能 评分 相关 的 文档 的 数目 。 ABA, tl w MAE OF : 


Entropy(w) = — Dodlogc p(w?) (4-4) 


PRR gi Law! ee Re S 值 越 小 区 分 能 力 越 强 。 很 容易 看 出 炉 具 有 和 
基尼 指数 相似 的 特性 。 事 实 上 ， 尽 管 它们 具有 不 同 的 概率 解释 ， 但 这 两 个 度量 往往 产生 非 
常 相 似 的 结果 。 基 尼 指 数 更 容易 理解 ， 而 箭 度量 有 更 坚实 的 信息 论 的 数学 基础 。 

4.3.4.3 X2 统 计量 

x* 统 计量 可 以 通过 将 单词 和 类 的 共同 出 现 处 理 为 列 联 表 来 计算 。 例 如 ， 假 设 我 们 现在 
试图 确定 特定 单词 是 否 与 用 户 的 购买 兴趣 相关 。 设 用 户 已 经 收集 了 该 集合 中 约 10% 的 物 
品 ， 并 且 在 大 约 20% 的 描述 中 出 现 了 词 w。 假 设 集合 中 的 物品 (和 相应 的 文档 ) 总 数 为 
1000。 那 么 ， 单词 与 类 别 共同 出 现 的 期 望 次 数 如 下 : 


单词 未 出 现在 描述 中 
1000* 0.1#0.8 一 80 





用 户 购 买 物品 
用 户 未 购买 物品 








1000 * 0. 9 * 0. 8=720 


上 述 期 望 值 是 在 假设 描述 中 的 词 的 出 现 和 相应 物品 中 的 用 户 兴趣 彼此 独立 的 情况 下 计 
算 的 。 如 果 这 两 个 量 是 独立 的 ， 那 么 这 个 词 显然 与 学 习 过 程 无 关 。 然 而 ， 在 实践 中 ， 可 能 
存在 高 度 的 相关 性 。 例 如 ， 考 虑 列 联 表 偏 离 预期 值 的 情况 ， 并 且 用 户 非 常 有 可 能 购买 包含 
该 词 的 物品 。 在 这 种 情况 下 ， 列 联 表 可 能 如 下 所 示 : 


[147] 


148 


[149] 
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单词 出 现在 描述 中 单词 未 出 现在 描述 中 





用 户 购买 物品 O; =60 Oz =40 
用 户 未 购买 物品 O;=140 O, =760 








x 统计 量 可 以 度量 列 联 表 中 不 同 格 子 的 观测 值 和 期 望 值 之 间 的 归 一 化 偏差 。 在 这 种 情 
况 下 ， 列 联 表 包 含 2 一 2X2 一 4 个 格子 。 令 0; 为 第 i 个 格子 的 观测 值 ，Ei; 为 第 i 个 格子 的 
期 望 值 。x: 统 计量 计算 如 下 : 


R 2 
Pe a OED (4-5) 


因此 ， 在 上 述 例子 中 ， 刀 统计 量 计算 如 下 ， 
- 2 jt 2 i 2 — 2 
SS O A 
=80 + 20 + 8. 89 + 2. 22 = 111. 11 
也 可 以 在 不 显 式 计 算 期 望 值 的 情况 下 ， 将 x? 统计 量 作 为 列 联 表 中 观测 值 的 函数 来 计算 。 这 
是 可 行 的 ， 因 为 期 望 值 是 行 和 列 聚 集 的 观测 值 的 函数 。 在 2X2 列 联 表 中 计算 x?: 统 计量 的 
简单 公式 如 下 (参见 习题 8) : 
» — — (0 + Oz +0, +0) + (010: — 0203)? 
X Ci, +02) + (O; +0.) -O +0) (Oz FO) 
在 这 里 ，O1…0O: 是 上 表 的 观测 值 。 很 容易 证 实 这 个 公式 得 出 了 值 为 111. 11 WE y SE 
计量 。 注 意 ,x 检验 也 可 以 使 用 Xx? 分 布 来 解释 概率 层面 的 显著 性 。 然 而 ， 从 实践 角度 看 ， 
知道 较 大 的 x? 统 计量 意味 着 特定 词 和 物品 有 更 高 的 相关 程度 就 足够 了 。 请 注意 ， 如 果 观 测 
值 完 全 等 于 预期 值 ， 则 表示 相应 的 词 与 当前 物品 无 关 。 在 这 种 情况 下 ，x? 统 计量 将 为 最 小 
值 0。 因 此 ， 可 以 保留 最 大 x? 统 计量 的 top-& 特征 。 
4.3.4.4 归 一 化 偏差 
大 多 数 上 述 度量 的 问题 是 失去 了 有 关 评 分 的 相对 顺序 信息 。 对 于 评分 具有 高 粒度 的 情 
况 ， 归 一 化 偏差 是 一 个 合适 的 度量 。 
令 史 为 所 有 文档 评分 的 方差 。 此 外 ， 令 y+ (w) 是 包含 单词 w 的 所 有 文档 的 平均 评 
分 ，p (w) 是 不 包含 单词 w 的 所 有 文档 的 平均 评分 。 那 么 ， 单 词 w 的 归 一 化 偏差 定义 
如 下 : 


(4-6) 


+ Du = 
Dev(w) = Cw) tw) (4-7) 


o 
较 大 的 Dev(w) 值 表示 单词 更 有 区 分 能 力 。 

上 述 量 化 基于 包含 特定 单词 的 文档 的 评分 相对 于 所 有 文档 的 评分 的 相对 分 布 。 评 分 是 
数值 型 时 这 种 方法 特别 合适 。 一 个 相关 的 度量 是 费 雪 判 别 指数 (Fisher’”s discrimination 
index)， 其 计算 特征 空间 (而 不 是 评分 维度 ) 中 类 间 分 离 与 类 内 分 离 的 比例 。 这 个 度量 在 
文献 [22] 中 有 详细 描述 。 然 而 ， 费 雪 判 别 指数 更 适合 于 分 类 因 变 量 ， 而 不 是 数值 因 变 
量 ， 如 评分 值 。 

4.3.4.5 特征 加 权 

特征 加 权 可 以 被 视 为 特征 选择 的 软 版 本 。 在 本 章 前 面部 分 的 特征 表示 中 ， 已 经 讨论 了 
如 何 使 用 逆 文 档 频 率 等 度量 来 加 权 文 档 。 然 而 ， 逆 文档 频率 是 不 依赖 于 用 户 偏 好 的 无 监督 
度量 。 还 可 以 使 用 有 监督 度量 来 进一步 对 向 量 空间 表示 进行 加 权 ， 以 表达 对 单词 的 不 同 重 
要 程度 。 例 如 ， 在 电影 推荐 的 应 用 中 ， 描 述 电影 类 型 或 演员 名 的 关键 词 比 从 电影 概要 中 选 


基于 内 容 的 推荐 系统 111 


择 的 词 更 重要 。 另 一 方面 ， 简 介 中 的 词 也 能 一 定 程 度 上 表达 用 户 的 偏好 。 因 此 ， 它 们 也 不 
能 被 删除 。 特 征 加 权 是 一 种 更 精细 的 通过 使 用 权重 而 非 “ 硬 ”二 元 决策 来 表示 词语 区 分 能 
力 的 方法 。 特 征 加 权 的 最 简单 方法 是 采取 任何 特征 选择 度量 并 使 用 它们 来 导出 权重 。 例 
如 ， 可 以 使 用 基尼 指数 或 炉 的 倒数 。 在 许多 情况 下 ， 启 发 式 函 数 可 以 进一步 应 用 于 选择 度 
量 ， 以 控制 加 权 过 程 的 灵敏 度 。 例 如 ， 考 虚词 w HMR ew), 其 中 a 是 大 于 1 的 
参数 。 

g(w) = a—Gini(w) (4-8) 
所 得 到 的 权重 g(w) 将 始终 位 于 (a 一 1, a) 范围 内 。 通 过 改变 a 的 值 ， 可 以 控制 加 权 过 
程 的 灵敏 度 。a 取 值 越 小 则 灵敏 度 越 大 。 然 后 将 向 量 空间 表示 中 的 每 个 单词 w 的 权重 乘 以 
g(w)。 可 以 基于 炉 和 归 一 化 偏差 来 定义 类 似 的 加 权 函 数 。 选 择 适当 的 特征 加 权 的 过 程 是 
高 度 启发 式 的 过 程 ， 与 当前 应 用 密切 相关 。a 的 值 可 以 被 视 为 加 权 函 数 的 参数 。 还 可 以 使 
用 交叉 验证 技术 来 学 习 最 佳 参 数 ， 第 7 章 讨论 了 这 些 技术 。 


44 学 习 用 户 画 像 和 过 滤 

用 户 画 像 的 学 习 与 分 类 和 回归 建 模 问 题 密切 相关 。 当 评分 被 视 为 离散 值 ( 例 如 “ 赞 ” 
a BR) 时 ， 问 题 类 似 于 文本 分 类 。 另 一 方面 ， 当 评分 被 视 为 一 组 数值 时 ， 问 题 类 似 于 
回归 模型 。 此 外 ， 在 结构 化 和 非 结构 化 领域 中 都 可 以 定义 学 习 问 题 。 由 于 问题 的 同 质 性 ， 
我 们 将 假设 物品 的 描述 是 文档 的 形式 。 然 而 ， 该 方法 可 以 很 容易 地 被 推广 到 任何 类 型 的 多 
维 数 据 ， 因 为 文本 是 一 种 特殊 类 型 的 多 维 数据 。 

在 每 种 情况 下 , 假设 我 们 有 一 个 训练 文档 的 集合 DL， 这 些 文档 由 特定 用 户 标记 。 当 用 
户 从 系统 中 获得 建议 时 , 这 些 用 户 也 称 为 活动 用 户 。 训 练 文档 对 应 于 物品 的 描述 , 在 预 处 
理 和 特征 选择 阶段 被 提取 出 来 。 此 外 , 训练 数据 还 包含 活动 用 户 对 这 些 文档 的 评分 。 这 些 
文档 用 于 构建 训练 模型 。 请 注意 , 在 训练 过 程 中 不 使 用 其 他 用 户 〈 非 活动 用 户 ) 分 配 的 标 
签 。 因 此 , 训练 模型 特定 于 给 定 用 户 ， 而 无 法 用 于 任意 用 户 。 这 与 传统 的 用 矩阵 分 解 在 所 
有 用 户 上 建立 模型 的 协同 过 滤 方 法 不 同 。 这 里 特定 用 户 的 训练 模型 代表 用 户 画 像 。 

文档 上 的 标 答对 应 于 数值 、 二 元 或 一 元 评分 。 假 设 DL 中 的 第 i 个 文档 具有 评分 c;。 我 
们 还 有 一 组 测试 文档 Du， 它 们 是 未 标记 的 。 请 注意 ，DiL 和 Du 都 是 专门 针对 (活动 ) 用 
户 的 。 测 试 文档 对 应 于 可 能 推荐 给 用 户 但 尚未 被 用 户 购买 或 评分 的 物品 的 描述 。 在 新 闻 推 
荐 等 领域 中 ，Du 中 的 文档 对 应 于 要 推荐 给 活动 用 户 的 候选 Web Xt. Du 的 精确 定义 取 
决 于 当前 正在 处 理 的 领域 ， 其 中 的 单个 文档 以 与 Dr 中 类 似 的 方式 提取 。Dr 上 的 训练 模型 
用 于 从 Dr 中 选取 要 推荐 给 活动 用 户 的 物品 。 和 协同 过 滤 的 情况 类 似 ， 该 模型 可 用 于 提供 
评分 预测 值 或 top-& 推荐 的 排名 列表 。 

很 明显 ， 这 个 问题 类 似 于 文本 领域 的 分 类 和 回归 建 模 。 读 者 请 参考 最 近 的 一 份 综述 [21], 
里 面 详细 讨论 了 许多 相关 技术 。 在 下 文中 ， 我 们 将 讨论 一 些 常见 的 学 习 方 法 。 


4.4.1 最 近邻 分 类 


最 近邻 分 类 器 是 最 简单 的 分 类 技术 之 一 ， 它 可 以 以 相对 直接 的 方式 实现 。 第 一 步 是 定 
义 一 个 将 在 最 近邻 分 类 器 中 使 用 的 相似 度 函 数 。 最 常用 的 相似 度 函 数 是 余弦 函数 ， 令 X= 
(zi"…za) 和 Y 一 (1…3d) 是 一 对 文档 ， 其 中 第 i 个 单词 的 归 一 化 频率 分 别 由 两 个 文档 中 
Wa; Aly: 给 出 。 请 注意 ， 需 要 使 用 无 监督 tf-idf 加 权 或 上 一 节 中 讨论 的 有 监督 方法 对 这 
些 频率 进行 归 一 化 或 加 权 。 然 后 ， 基 于 这 些 归 一 化 频率 来 定义 余弦 测量 : 
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d 
Dy iyi 


i=] 
d d 
Jorns 
i=] i=l 


余弦 相似 性 经 常 在 文本 领域 中 使 用 ， 因 为 它 能 够 调整 底层 文档 的 长 度 。 当 该 方法 用 于 其 他 
类 型 的 结构 化 和 多 维 数据 时 ， 会 使 用 其 他 相似 度 / 距 离 函 数 ， 例 如 欧 几 里 得 距离 和 曼哈顿 
距离 。 对 于 具有 分 类 属性 的 关系 数据 ， 可 以 使 用 各 种 基于 匹配 的 相似 性 度量 522] 。 

该 相似 度 函 数 在 对 用 户 偏 好 未 知 的 物品 〈 文 档 ) 进行 预测 时 很 有 用 。 对 于 Du 中 的 每 
个 文档 ， 使 用 余弦 相似 度 函 数 来 确定 Pr PWR 个 最 近邻 居 。 确 定 Du 中 每 个 物品 的 & 个 
邻居 的 评分 均值 。 该 均值 是 Du 中 对 应 物品 的 预测 评分 。 额 外 可 以 使 用 的 启发 式 增强 是 可 
以 使 用 相似 度 对 每 个 评分 进行 加 权 。 在 评分 被 视 为 类 别 的 情况 下 ， 需 要 确定 每 个 评分 值 的 
投票 数 ， 并 将 票数 (频次 ) 最 高 的 值 作 为 预测 的 评分 值 。 然 后 根据 评分 的 预测 值 对 Dr 中 
的 文档 进行 排名 ， 并 向 用 户 推荐 分 值 最 高 的 物品 。 

使 用 这 种 方法 的 主要 挑战 是 其 高 计算 复杂 度 。 注 意 ， 需 要 确定 Pu 中 每 个 文档 的 最 近 
邻 ， 并 且 每 个 最 近邻 确定 所 需 的 时 间 与 Dr 的 大 小 呈 线 性 关系 。 因 此 ， 计算 复 杂 度 等 于 
1Di | Xx |Du ||。 使 方法 更 快 的 一 种 方法 是 使 用 聚 类 来 减少 D1 中 训练 文档 的 数量 。 对 于 评 
分 的 每 个 不 同 的 值 ，Di 中 对 应 的 文档 子 集 被 聚 成 加 和 1Drz | 组 。 因此， 如 果 有 ;个 不 同 的 
评分 值 ， 则 组 的 总 数 是 p，s。 通 常 ， 使 用 快速 基于 质心 ( 即 上 均值 ) 的 聚 类 来 创建 每 组 p 
ik. TER. FAM BCH p> s 明显 小 于 训练 文档 的 数量 。 在 这 种 情况 下 ， 每 个 组 都 转换 成 
该 组 中 文档 合并 9 后 的 较 大 文档 。 可 以 通过 将 其 组 成 部 分 的 单词 频率 相 加 来 获取 这 个 较 大 
文档 的 向 量 空间 表示 。 与 文档 相关 的 评分 标签 等 于 其 组 成 部 分 的 评分 。 对 于 每 个 目标 文档 
T， 为 其 从 这 新 创建 的 包含 p 个 文档 的 集合 找到 最 相近 的 & 二 p 个 文档 。 这 个 文档 的 平 
均 评分 被 作为 目标 标签 返回 。 与 前 一 种 情况 一 样 ， 对 Du 中 的 每 个 物品 预测 评分 ， 并 将 评 
分 最 高 的 物品 返回 给 活动 用 户 。 这 种 方法 加 快 了 分 类 过 程 ， 因 为 只 需 计 算 目 标 文档 和 相对 
较 少 数量 的 聚合 文档 之 间 的 相似 性 。 即 便 这 种 方法 导致 了 额外 聚 簇 预 处 理 开销 ,但 与 D1 
和 Du 的 较 大 时 的 推荐 时 间 相 比 ， 这 一 开销 还 是 比较 小 的 。 

这 种 基于 柴 类 的 方法 的 特殊 情况 是 将 属于 某 个 特定 评分 值 的 所 有 文档 公 合 成 一 个 组 。 
因此 ，z 的 值 被 设置 为 1。 每 个 组 的 结果 向 量 的 向 量 空间 表示 也 被 称 为 原型 向 量 。 对 于 测 
试 文档 ， 最 接近 的 文档 的 评分 被 作为 是 目标 的 评分 值 。 这 种 方法 与 Rocchio 分 类 密切 相 
关 ， 其 允许 来 自 活动 用 户 的 相关 性 反馈 。Rocchio 方法 最 初 是 为 二 元 类 别 (在 我 们 的 例子 
中 ， 其 被 转换 为 二 元 评分 ) 设计 的 。4. 8 节 给 出 了 Rocchio 方法 的 参考 文献 。 


4.4.2 与 基于 案例 的 推荐 系统 的 关联 性 


最 近邻 方法 通常 与 基于 知识 的 推荐 系统 相 联系 ， 特 别 是 基于 案例 的 推荐 系统 。 基 于 知 
识 的 推荐 系统 在 第 5 章 中 有 详细 的 讨论 。 其 主要 区 别 在 于 ， 在 基于 案例 的 推荐 系统 中 ， 用 
户 交 互 地 指定 了 一 个 感 兴趣 的 例子 ， 并 且 与 该 例子 最 接近 的 邻居 认为 是 用 户 可 能 感 兴趣 的 
物品 。 

此 外 ， 因 为 只 有 一 个 例子 可 用 ， 所 以 在 相似 度 函 数 的 设计 中 使 用 了 大 量 的 领域 知识 。 


Cosine(X,Y) = 





(4-9) 


因为 例子 是 以 交互 方式 指定 的 ， 所 以 这 个 单一 的 例子 被 视 为 用 户 需 求 而 非 历 史 评分 要 更 恰 


O 对 于 结构 化 数据 ， 可 以 使 用 组 的 质心 。 
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当 。 在 基于 知识 的 系统 中 ， 不 太 注 重 使 用 历史 数据 或 评分 。 像 Rocchio 方法 一 样 ， 这 种 方 
法 也 是 互动 的 ， 但 在 基于 案例 的 系统 中 交互 会 更 加 复杂 。 


4.4.3 贝 叶 斯 分 类 器 


我 们 在 第 3 章 3. 4 节 中 讨论 协同 过 滤 时 讨论 了 贝 叶 斯 分 类 器 。 然 而 ,第 3 章 中 的 讨论 
是 贝 叶 斯 模型 的 非 标准 使 用 ， 其 通过 已 知 评分 来 预测 缺失 评分 。 在 基于 内 容 的 推荐 系统 的 
应 用 中 ， 问 题 转 化 为 更 常规 的 用 贝 叶 斯 模型 分 类 文本 。 因 此 ， 我 们 将 在 文本 分 类 的 语 境 中 
重新 审视 贝 叶 斯 模型 。 

在 这 种 情况 下 ， 我 们 有 一 个 包含 训练 文档 的 集合 Di， 以 及 一 个 包含 测试 文档 的 集合 
Du。 为 了 方便 讨论 ， 我 们 假设 标签 是 二 元 的 ， 用 户 可 以 分 别 为 DL 中 的 每 个 训练 文档 用 
十 1 或 一 1 指定 喜欢 或 不 喜欢 的 评分 。 当 然 ， 也 可 以 较 容易 地 将 此 分 类 器 转化 为 两 个 以 上 
不 同 值 的 评分 情况 。 

如 前 所 述 ， 假 设 Di 中 的 第 i 个 文档 的 评分 由 ci:€E1{ 一 1,1) 表示 。 因 此 ， 此 标记 的 集 
合 表 示 用 户 画 像 。 在 文本 数据 中 通常 使 用 两 种 模型 ， 分 别 对 应 于 伯 努 利和 多 元 模型 。 在 下 
文中 我 们 仅 讨 论 伯 努 利 模型 。 多 元 模型 在 文献 22] 中 有 详细 的 讨论 。 

在 伯 努 利 模型 中 ， 单 词 的 频率 被 忽略 ， 只 考虑 文档 中 单词 存在 或 不 存在 。 因 此 ， 每 个 
文档 被 视 为 仅 包 含 0 和 1 值 的 4 个 单词 的 二 进 制 向 量 。 考 虑 对 应 于 物品 描述 的 目标 文档 
XEDu. 假设 X 中 的 特征 由 (zi…zz) 表示 。 非 正式 地 ， 我们 想 确定 条 件 概率 P (活动 
MEEK 六 |x1…zx4)。 这 里 ， 每 个 x; 是 0 或 1， 其 表示 文档 卫 中 是 否 存 在 第 i 个 词 。 如 果 
X 的 类 (二 元 评分 ) AX) 表示 ， 则 我 们 的 目标 就 是 确定 概率 值 PCc(X) 一 1|z ig 
通过 确定 P(c(X)=1|z…zz) M P(c(X)=—-1 arrera) 并 选择 两 者 中 较 大 的 一 
以 推测 活动 用 户 是 否 喜欢 XXX。 这 些 表 达 式 可 以 通过 使 用 贝 叶 斯 定理 进行 计算 ， 并 应 
朴素 假设 : 

P(c(X) = 1) » Plar za |e CX) = 1) 
P(xi'*za) 
Plc RI) = 1)» rane xa |c(X) = 1) 


P(c(X)) = 1| ziza) = 





=P(e(X) = 1). [Pe le(X) = 1)[ 朴 素 假设 ] 
朴素 假设 指出 ， 单 词 是 否 在 文档 中 出 现 (在 特定 关上) 是 条 件 独立 的 ， 因 此 可 以 用 
d 
[PGi le = D RE PCzl…zule(X) 王 1)。 此 外 ， 由 于 分 母 与 类 无 关 ， 因 此 可 以 直 
=1 


接 使 用 比例 常数 。 因 此 ， 分母 在 确定 类 评分 时 不 起 作用 ,但 是 ,分母 会 在 对 用 户 喜 欢 的 物 
品 (文档 ) 排序 时 发 挥 作用 。 这 与 基于 PCc(X) = 1|xi…za) 对 某 个 特定 用 户 的 评分 进行 
排序 的 问题 有 关 。 

如 果 需 要 物品 的 排名 ， 则 比例 常数 不 再 无 关 紧要 。 这 在 无 法 推测 确切 的 评分 值 ， 但 需 
要 评分 相对 顺序 的 推荐 应 用 中 非常 常见 。 这 种 情况 下 就 需要 确定 比例 常数 。 假 设 K 表示 
比例 常数 ,通过 使 用 c(X) 的 所 有 可 能 情况 的 概率 之 和 应 始终 为 1 的 事实 可 以 获得 K 的 
fi. Ak, 我们 有 


K- [P(X) = 1). Tre le =1)+ P(c(X) =1)- HP [eCX) = DI=1 
进而 可 以 如 下 计算 K 的 值 ， 
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1 
d d 
P(c(X) = 1) + [[ Pai le) = D+ P(c(X) =—-1) + [| PGi |e(X) = 一 1) 


i=l i=l 
该 方法 用 于 确定 用 户 喜 欢 Du 中 每 个 可 能 物品 的 概率 。 然 后 将 Du 中 的 物品 ， 根 据 该 概率 进 
行 排序 并 呈现 给 用 户 。 这 些 方法 特别 适用 于 二 元 评分 。 还 有 一 些 使 用 概率 来 估计 评分 的 其 
他 方法 ， 可 以 处 理 不 必须 是 二 元 评分 的 情况 ， 并 对 物品 进行 排序 。 第 3 章 3.4 节 详 细 讨论 
了 这 些 方法 。 

4.4.3.1 估计 中 间 概 率 

贝 叶 斯 方法 需要 计算 中 间 概 率 ， 如 P(xzi|c(X) 二 1)。 到 目前 为 止 ， 我 们 还 没有 讨论 如 
何以 数据 驱动 的 方式 估计 这 些 概 率 。 上 述 贝 叶 斯 定理 的 主要 效用 是 其 能 够 基于 其 他 的 概率 
值 (如 PCzilc(X) 二 1)) 来 计算 所 需 概率 ， 从 而 更 容易 以 数据 驱动 的 方式 进行 估计 。 我 们 
重新 整理 贝 叶 斯 条 件 如 下 : 





d 
P(c(X) =1| ziveza) P(c(X) = 1) [] Pla |e(X) = 1) 
i=] 


d 
P(X) 一 一 1| zza) cc PR) =— 1) + [[ PCa |e(X) =—1) 
i=] 


为 了 计算 贝 叶 斯 概率 ， 我 们 需要 估计 上 述 等 式 右 侧 的 概率 ， 包括 先 验 类 概率 P(c(X)=1) 
和 P(c(X) 王 一 1) 。 此 外 ， 还 需要 估计 特征 条 件 概率 ， 例 如 PCa; |c(X)=1) M PCa; | 
c(X) 一 一 1) 。 概 率 PCc(X) 王 1) 可 以 被 估计 为 训练 数据 DL 中 正 训练 样本 Di+ 的 比例 。 
为 了 减少 过 拟 合 ， 通 过 将 与 小 参数 a> 成 比例 的 值 加 到 分 子 和 分 母 来 执行 拉 普 拉 斯 平滑 。 
ID} |+a 
|D.|+2-+a 

以 完全 类 似 的 方式 估计 P(c(X) 王 一 1) 的 值 。 此 外 ， 条 件 特征 概率 PCzilc(X) 王 1) 
被 估计 为 正 例 中 第 i 个 特征 取 值 为 zx; 的 比例 。 令 qt (ai) 代表 第 i 个 特征 取 z;€E1{0,1) 的 
正 例 的 数目 。 然 后 ， 我 们 可 以 使 用 拉 普 拉 斯 平滑 参数 8 二 0 来 估计 概率 如 下 : 

= © ey) 
PGNKE S12) = acre (4-11) 

可 以 使 用 类 似 的 方法 来 估计 P(zi |c(X)== 一 1)。 请 注意 ， 拉 普 拉 斯 平滑 在 可 用 的 训练 
数据 较 少 时 很 有 帮助 。 在 极端 情况 下 ， 当 DI AZ, WR P(x; |c (XX) 二 1) 将 作为 一 种 
先 验 知识 被 估计 为 0.5。 如 果 没 有 平滑 ， 则 分 子 和 分 母 都 将 为 0， 估计 会 变 成 不 确定 的 。 
像 许 多 正则 化 方法 一 样 ， 拉 普 拉 斯 平滑 可 以 在 训练 数据 有 限时 加 强 先 验 知识 的 重要 性 。 虽 
然 我 们 讨论 的 是 二 元 评分 情况 的 估计 方法 ， 但 当 有 个 不 同 的 评分 值 时 ， 推 广 上 述 估计 方 
法 是 比较 容易 的 。 在 第 3 章 3.4 节 的 协同 过 滤 的 上 下 文中 讨论 了 类 似 的 估计 。 

4.4.3.2 贝 叶 斯 模型 示例 

我 们 提供 了 贝 叶 斯 模型 的 一 个 例子 ， 用 于 6 个 训练 实例 和 2 个 测试 实例 。 在 表 4- 1 
中 ， 列 对 应 于 表示 各 种 歌曲 的 属性 的 特征 。 用 户 喜 欢 或 不 喜欢 对 应 的 歌曲 在 表 的 最 后 一 列 
中 说 明 。 因 此 ， 最 后 一 列 可 以 视 为 评分 。 前 6 行 是 训练 实例 ， 其 对 应 于 用 户 画 像 。 最 后 一 
行 是 需要 为 当前 正在 服务 的 特定 用 户 排 名 的 两 个 候选 歌曲 。 在 机 器 学 习 的 说 法 中 ， 这 些 行 
也 称 为 测试 实例 。 请 注意 ， 最终 (AEH) 列 仅 为 训练 行 指定 ， 因 为 用 户 喜 欢 或 不 喜欢 
GED) 对 于 测试 行 是 未 知 的 ， 需 要 预测 。 


PAX) = Y= (4-10) 
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表 4-1 基于 内 容 的 推荐 系统 中 贝 叶 斯 方法 示例 









Like 或 
Dislike 





Dislike 
Dislike 
Dislike 









检查 表 4-1 中 的 特征 ， 很 明显 ， 前 三 个 特征 〈 列 ) 可 能 经 常 发 生 在 许多 流行 的 音乐 流 
派 中 ， 例 如 摇滚 音乐 ， 而 后 三 个 特征 出 现在 古典 音乐 中 。 表 4-1 所 示 的 用 户 个 人 资料 清楚 
地 表明 ， 用 户 喜 欢 古典 音乐 多 于 摇滚 乐 。 同 样 ， 在 测试 实例 中 ， 似 乎 只 第 一 个 与 用 户 的 兴 
趣 相 匹配 。 让 我 们 来 看 看 贝 叶 斯 方法 如 何 能 够 以 数据 驱动 的 方式 得 出 这 个 事实 。 尽 管 在 实 
际 应 用 中 使 用 这 种 平滑 方法 很 重要 ， 但 为 了 便于 计算 ， 我 们 将 假设 不 使 用 拉 普 拉 斯 平滑 。 

通过 使 用 贝 叶 斯 模型 ， 我 们 可 以 基于 测试 实例 观察 得 到 的 特征 导出 喜欢 和 不 喜欢 的 条 
PER: 


6 
P(Like| Test- 1) 0c0. 5 >) P(Like|z;) 
i=] 


通过 将 两 个 概率 归 一 化 ， 得 到 的 结果 为 PCLike| Test-1) 4 1, P(Dislike|Test-1) 为 0。 
在 Test-2 上 会 得 到 正好 相反 的 结果 一 一 P(Like|Test-2) 为 0。 因 此 ， 应 向 活动 用 户 推 荐 
Test-1 而 非 Test-2。 这 与 我 们 在 这 个 例子 里 目测 的 结果 是 一 样 的 。 

当 使 用 拉 普 拉 斯 平滑 时 ， 我 们 不 会 获得 0-1 的 概率 值 ， 尽 管 一 个 类 别 的 概率 值 要 比 另 
一 个 类 别 更 高 。 在 这 种 情况 下 ， 所 有 的 测试 实例 可 以 按照 “喜欢 ”的 概率 的 顺序 排列 ， 并 
按 顺 序 向 用 户 推荐 。 拉 普 拉 斯 平滑 是 可 取 的 ， 因 为 贝 叶 斯 规则 右 侧 表达 式 的 乘积 形式 中 的 
单个 0 值 可 导致 条 件 概率 值 为 0。 


4.4.4 基于 规则 的 分 类 器 


基于 规则 的 分 类 器 可 以 通过 各 种 方式 进行 设计 ， 包 括 留 一 法 以 及 关联 方法 。 文 献 
(18, 22] 中 给 出 了 各 类 基于 规则 的 分 类 器 的 详细 描述 。 在 下 文中 ， 我 们 将 仅 讨论 关联 分 
类 器 ， 因 为 它们 基于 关联 规则 的 简单 原则 。 第 3 章 3. 3 节 提 供 了 对 基于 规则 的 方法 的 讨 
论 。 关 于 关联 规则 及 其 度量 的 基本 定义 〈 如 支持 度 和 置信 度 ) 请 参见 该 节 。 一 个 规则 的 支 
持 度 定义 了 满足 规则 的 前 件 和 后 件 的 行 所 占 的 比例 。 规则 的 置信 和 度 是 满足 规则 前 件 的 行 中 
也 满足 后 件 的 行 所 占 的 比例 。 下 面 更 详细 地 描述 “满足 ”前 件 或 后 件 的 行 的 概念 。 
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基于 内 容 的 系统 中 基于 规则 的 分 类 器 与 协同 过 滤 中 基于 规则 的 分 类 器 相似 。 在 协同 过 
滤 的 物品 -物品 规则 中 ， 规 则 的 前 件 和 后 件 都 对 应 于 物品 的 评分 。 与 基于 内 容 的 系统 的 主 
要 区 别 在 于 协同 过 滤 规 则 的 前 件 对 应 于 各 物品 的 评分 ， 而 基于 内 容 的 方法 中 规则 的 前 件 
则 与 物品 描述 中 特定 关键 词 的 存在 性 相对 应 。 因 此 ， 规 则 具有 以 下 形式 : 

Item contains keyword set A > Rating = Like 

Item contains keyword set B > Rating = Dislike 
因此 ， 如 果 规 则 中 的 所 有 关键 词 都 包含 在 该 行 中 ， 则 称 该 行 〈 物 品 的 关键 词 表 示 ) 满足 规 
则 的 前 件 。 后 件 对 应 于 各 种 评分 ， 我 们 假定 为 简单 的 喜欢 或 不 喜欢 。 如 果 结 果 中 的 评分 值 
与 该 行 的 因 变 量 (评分 ) 匹配 ， 则 表示 满足 该 规则 的 后 件 。 

BH EA ATK AP mA CENA SCR) 以 所 需 的 支持 度 和 置信 度 水 平 挖掘 所 有 
规则 。 与 所 有 基于 内 容 的 方法 一 样 ， 这 些 规则 是 特定 于 当前 活动 用 户 的 。 例 如 ， 在 表 4-1 
所 示 的 情况 下 ， 活 动用 户 似乎 对 古典 音乐 感 兴趣 。 在 这 种 情况 下 ， 具 有 332%% 支 持 度 和 
100% 置 信和 度 的 相关 规则 的 示例 如 下 : 

{Classical, Symphony} = Like 

因此 ， 基 本 思想 是 为 给 定 的 活动 用 户 挖掘 所 有 这 些 规 则 。 然 后 ， 对 于 用 户 兴趣 未 知 的 目标 
物品 确定 哪些 规则 被 触发 。 如 果 规 则 的 前 件 关键 词 包 含 在 物品 的 描述 中 ， 则 目标 物品 描述 
触发 规则 。 一 旦 为 活动 用 户 确 定 了 所 有 这 样 的 触发 规则 ， 则 这 些 规则 的 后 件 的 平均 评分 会 
被 当 作 目标 物品 的 评分 。 存 在 许多 启发 式 方法 来 合并 后 件 的 评分 。 例 如 ， 我 们 可 以 选择 在 
计算 平均 值 时 以 规则 的 置信 度 加 权 评 分 。 如 果 没 有 任何 规则 被 触发 ， 则 需要 使 用 默认 启发 
式 方法 。 例 如 ， 可 以 计算 活动 用 户 在 所 有 物品 上 的 平均 评分 ， 以 及 所 有 用 户 对 目标 物品 的 
平均 评分 。 然 后 用 两 个 量 的 平均 值 作为 预测 评分 。 因 此 ， 基 于 规则 的 分 类 的 整体 方法 可 以 
描述 如 下 : 

1) (训练 阶段 ， 从 训练 数据 集 DL 中 以 所 需 的 最 低 支 持 度 和 置信 度 确 定 用 户 画 像 中 的 
所 有 相关 规则 。 

2)( 测 试 阶段 ) 对 于 Du 中 的 每 个 物品 描述 ， 确 定 被 触发 的 规则 和 平均 评分 。 根 据 该 
平均 评分 对 Du 中 的 物品 进行 排名 。 

基于 规则 的 系统 的 一 个 优点 是 它们 提供 了 高 度 的 可 解释 性 。 例如， 对 于 推荐 的 物品 ， 
可 以 使 用 已 触发 规则 的 前 件 中 的 关键 词 告诉 目标 用 户 为 什么 她 可 能 会 喜欢 某 个 特定 物品 。 

4.4.4.1 基于 规则 的 方法 示例 
为 了 说 明 使 用 基于 规则 的 方法 ， 我 们 给 出 表 4-1 中 为 活动 用 户 生 成 的 规则 的 示例 。 在 
33% 的 支持 度 水 平和 75% 的 置信 和 度 水 平 下 ， 可 以 生成 以 下 规则 及 其 支持 一 置信 度 值 : 
规则 1; {Classical} => Like(50% ,100%) 
规则 2: {Symphony} => Like(33%,100%) 
规则 3: {Classical, Symphony} => Like(33%,100%) 
规则 4: {Drums, Guitar} > Dislike(33%,100%) 
规则 5; {Drums} => Dislike(33% ,100%) 

规则 6: {Beat} > Dislike(33% ,100%) 

规则 7; {Guitar} > Dislike(50% ,75%) 


o 协同 过 滤 的 另 一 种 方法 是 利用 用 户 -用 户 规则 。 对 于 用 户 -用 户 规 则 来 说 ， 先 行 词 和 结果 可 能 都 包含 特定 用 户 
的 评分 。 参 见 第 3 章 3.3 节 。 
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上 述 规则 按照 置信 度 下 降 的 顺序 进行 排序 ， 置 信 度 相同 时 按 支持 度 排 序 。 显 然 ， 规 则 
2 由 Test-1 触发 ， 而 规则 5 和 规则 6 由 Test-2 触发 。 因 此 ，Test-1 应 优先 于 Test- 2 推荐 
给 活动 用 户 。 请 注意 ，Test-1 触发 的 规则 解释 了 为 什么 它 是 活动 用 户 的 最 佳 建 议 。 从 顾客 
的 角度 和 商家 的 角度 来 看 ， 这 种 解释 通常 在 推荐 系统 中 非常 有 用 。 


4.4.5 基于 回归 的 模型 


基于 回归 的 模型 其 优点 在 于 可 用 于 各 种 类 型 的 评分 ， 如 二 元 评分 、 基 于 区 间 的 评分 或 
数值 型 评分 。 诸 如 线性 模型 、 逻 辑 回归 模型 和 ordered probit 模型 之 类 的 大 类 回归 模型 可 
用 于 对 各 种 类 型 的 评分 进行 建 模 。 在 这 里 ， 我 们 将 描述 最 简单 的 线性 回归 模型 。4. 8 节 包 
含 更 复杂 的 回归 方法 的 文献 。 

S Di 是 一 个 nX4d 和 矩阵， 表示 基于 大 小 为 d 的 词典 标注 过 的 ?2 个 文档 的 训练 集 Dz 。 
类 似 地 ， 令 了 是 包含 训练 集中 个 文档 的 活动 用 户 的 评分 的 n 维 列 向 量 。 线 性 回归 的 基本 
思想 是 假设 评分 可 以 被 建 模 为 单词 频率 的 线性 函数 。 令 W 表示 将 词 频 与 评分 相关 联 的 线 
性 函数 中 的 每 个 单词 的 系数 的 4 维 行 向 量 。 然 后 ， 线 性 回归 模型 假设 训练 矩阵 Di 中 的 单 
词 频率 与 评分 向 量 相 关 如 下 : 

y~ DW (4-12) 
Ak, (D.W'—y) 是 预测 误差 的 n 维 向 量 。 为 了 最 大 化 预测 的 质量 ， 必 须 最 小 化 该 向 量 
的 平方 范 数 。 此 外 ， 为 了 减少 过 拟 合 ， 可 以 将 正则 化 项 站 丈 上 2 加 到 目标 函数 中 。 这 种 正 
则 化 形式 也 被 称 为 Tikhoneyv EM, KH, A>O 是 正则 化 参数 。 因 此 ， 目 标 函 数 O 可 以 
表示 如 下 : 
Minimize O = || DW" —y||2 +A || W || 2 (4-13) 
i OK IK A he PAY AE A OW 设置 为 0 可 以 解决 问题 。 这 导致 以 下 条 件 : 
Di (D,W' — 5) +awt = 0 
(DIDL +al)W* = Diy 

和 矩阵 (DID, + MT) WEZH, At (参见 习题 7) ， 故 我 们 可 以 直接 求解 权重 向 
量 W 如 下 : 

WT = (DID, Al) Diy (4-14) 
这 里 , I 是 一 个 dX4a 的 单位 矩阵 。 因 此 ， 环 7 总 是 存在 封闭 解 。 对 于 来 自 未 标记 集合 Pr 
的 任何 给 定 文档 向 量 (物品 描述 ) 素 ， 其 评分 可 以 被 预测 为 环 和 之 间 的 点 积 。Tikhonov 
正则 化 使 用 Lz 正则 化 项 4，| 瑟 上 ?。 也 可 以 使 用 工 ! 正则 化 ， 其 中 该 项 被 +， || wl 代替。 
所 得 到 的 优化 问题 没有 封闭 解 ， 并 且 必 须 使 用 梯度 下 降 方法 。 这 种 正则 化 形式 也 被 称 为 
Lasso[2423] ， 其 可 以 用 于 特征 选择 。 这 是 因为 这 种 方法 具有 选择 环 的 稀 朴 系数 向 量 的 趋势 ， 
其 中 研 的 大 多 数 分 量 取 值 为 0。 这 样 的 特征 可 以 被 丢弃 。 因 此 ，Li 正则 化 方法 为 推荐 过 程 
的 重要 功能 子 集 提 供 了 高 度 可 解释 的 结果 。 这 些 模型 的 详细 讨论 可 以 在 文献 [22] 中 
找到 。 

线性 模型 是 适用 于 实数 型 评分 的 回归 模型 的 一 个 例子 。 在 实践 中 ， 评 分 可 能 是 一 元 
的 、 二 元 的 、 基 于 区 间 的 或 分 类 的 (少量 的 序数 值 )。 目 前 已 经 为 不 同类 型 的 目标 类 变量 
设计 了 各 种 线性 模型 ， 如 逻辑 回归 、probit 回归 、ordered probit 回归 和 非 线 性 回归 。 一 般 
评分 通常 被 视 为 二 元 评分 ， 其 中 未 标记 的 物品 被 视 为 负 实例 。 然 而 ， 对 于 这 种 情况 ， 存 在 
专门 的 positive-unlabeled (PU) 模型 [8 包 ordered probit 回归 对 于 基于 区 间 的 评分 特别 
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有 用 。 此 外 ， 在 特征 和 目标 变量 之 间 的 依赖 是 非 线 性 的 情况 下 ， 可 以 使 用 诸如 多 项 式 回 归 
和 核 回 归 等 非 线性 回归 模型 。 当 特征 数量 大 ， 训 练 样本 数量 小 时 ， 线 性 模型 通常 表现 相当 
好 ， 实 际 上 可 能 优 于 非 线性 模型 。 这 是 因为 线性 模型 不 太 容 易 过 拟 合 。 表 4-2 显示 了 各 种 
回归 模型 与 目标 变量 〈 评 分 ) 的 特点 之 间 的 映射 关系 。 


表 4-2 回归 模型 及 适用 的 评分 类 型 







回归 模型 
线性 回归 
多 项 式 回归 
核 回 归 
二 元 逻辑 回归 


评分 特点 (目标 变量 ) 









评分 特点 (目标 变量 ) 
分 类 、 顺 序 
一 元、 二 元 


分 类 、 











多 路 逻辑 回归 
probit 



















multiway probit 











ordered probit 


4.4.6 其 他 学 习 模 型 和 比较 概述 


由 于 基于 内 容 的 过 滤 的 问题 是 分 类 和 回归 建 模 的 直接 应 用 ， 所 以 可 以 从 文献 中 获得 许 
多 其 他 技术 。 各 种 分 类 模型 的 详细 讨论 可 以 在 [18, 86, 242, 436] 中 找到 。 第 3 章 讨论 
的 决策 树 模 型 也 可 以 应 用 于 基于 内 容 的 方法 。 然 而 ， 对 于 非常 高 维 的 数据 ， 例 如 文本 ， 决 
策 树 通常 不 能 提供 非常 有 效 的 结果 。 与 其 他 分 类 方法 相 比 ， 实 验 结果 显示 出 决策 树 的 性 能 
不 佳 [7] 。 即 使 基于 规则 的 分 类 器 与 决策 树 密切 相关 ， 但 它们 通常 可 以 提供 优异 的 结果 ， 
因为 它们 不 会 对 特征 空间 进行 严格 的 划分 。 基 于 规则 的 电子 邮件 分 类 器 获得 了 成 功 的 结 
果 064,165] 。 在 各 种 模型 中 ， 贝 叶 斯 方法 具有 可 以 使 用 适当 的 模型 来 处 理 所 有 类 型 特征 变量 
的 优点 。 基 于 回归 的 模型 是 非常 强大 的 ， 它 们 可 以 处 理 所 有 形式 的 目标 变量 。 逻 辑 回归 和 
ordered probit 回归 对 二 元 和 基于 区 间 的 评分 特别 有 用 。 

在 二 元 评分 的 情况 下 ， 支 持 向 量 机 0 是 受 欢迎 的 选择 。 支 持 向 量 机 与 逻辑 回归 非常 
相似 ， 主 要 区 别 在 于 损失 量 被 定义 为 贸 链 损 耗 而 非 使 用 对 数 函 数 。 支 持 向 量 机 能 够 高 度 抵 
抗 过 拟 合 ， 并且 存在 许多 现成 的 实现 。 在 文献 中 已 经 使 用 了 线性 和 基于 内 核 的 支持 向 量 
机 。 对 于 高 维 数据 (例如 文本 ) 的 情况 ， 已 经 知道 线性 支持 向 量 机 就 足够 了 。 对 于 这 种 情 
况 ， 已 经 有 具有 线性 性 能 5283 的 专门 方法 被 设计 出 来 。 虽 然 神 经 网 络 ![8 可 以 用 于 构建 任 
意 复杂 的 模型 ， 但 是 当 可 用 数据 量 很 小 时 ， 它 们 是 不 可 取 的 。 这 是 因为 神经 网 络 对 底层 数 
据 中 的 噪声 敏感 ， 当 尺寸 较 小 时 ， 可 能 导致 过 拟 合 。 


4.4.7 基于 内 容 的 系统 的 解释 


由 于 基于 内 容 的 系统 基于 内 容 特 征 构建 模型 ， 因 此 通常 会 为 推荐 过 程 提供 高 度 的 可 解 
释 性 。 例 如 ， 在 电影 推荐 系统 中 ， 告 诉 用 户 为 什么 他 们 可 能 喜欢 特定 电影 (例如 特定 类 型 
特征 、 演 员 特 征 或 信息 性 关键 词 的 存在 ) 通常 是 有 用 的 。 因 此 活动 用 户 就 能 够 对 他 们 是 否 
应 该 看 电影 做 出 更 明智 的 选择 。 类 似 地 ， 音 乐 推荐 系统 中 的 描述 性 关键 词 集 可 以 帮助 更 好 
地 理解 用 户 为 什么 喜欢 特定 的 音 轨 。 作 为 一 个 具体 的 例子 ， 潘 多 拉 网 络 电台 [s*3 提供 了 推 

音 轨 的 解释 ， 例 如 : 

“我 们 正在 播放 这 条 音 轨 ， 因 为 它 具 有 如 下 特征 : trance roots, four-on- the 
floor beats, disco influences, a knack for catchy hooks, beats made for dancing, 
straight drum beats, clear pronunciation, romantic lyrics, storytelling lyrics, 
subtle buildup/breakdown, a rhythmic intro, use of modal harmonies, the use 


of chordal patterning, light drum fills, emphasis on instrumental performance, a 
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synth bass riff, synth riffs, subtle use of arpeggiatted synths, heavily effected 

synths, and synth swoops。( 这 段 是 各 种 音乐 术语 。 译 者 注 ) 

上 述 性 质 中 的 每 一 个 都 可 以 被 看 作 是 一 个 重要 的 特征 ， 它 们 负责 将 测试 实例 分 类 为 
“喜欢 ”。 请 注意 ， 协 同 过 滤 系 统 中 常常 缺乏 这 样 详细 的 解释 ， 其 只 能 使 用 与 推荐 物品 类 似 
的 物品 来 给 出 解释 ， 而 不 是 使 用 这 些 物品 的 详细 特征 。 不 过 这 种 可 解释 性 在 特性 上 和 程度 
上 都 对 所 使 用 的 具体 模型 非常 敏感 。 例 如 ， 贝 叶 斯 模型 和 基于 规则 的 系统 在 分 类 的 具体 因 
果 关 系 方面 高 度 可 解释 。 考 虑 表 4-1 的 示例 ， 其 中 针对 实例 Test-1 触发 了 以 下 规则 : 

{Symphony} => Like 
很 明显 ，Test-1 描述 的 物品 被 推荐 给 用 户 ， 因 为 它 是 交响 乐 。 类 似 地 ， 在 贝 叶 斯 分 类 模型 
H, P(Symphony| Like) 的 贡献 在 分 类 的 乘法 公式 中 是 最 大 的 。 其 他 模型 ， 如 线性 和 非 线 
性 回归 模型 ， 则 更 难 解 释 。 然 而 ， 这 些 模 型 的 某 些 实例 CH Lasso) 可 以 确定 分 类 过 程 中 
最 相关 的 那些 特征 。 


4.5 基于 内 容 的 推荐 与 协同 推荐 


比较 基于 内 容 的 方法 与 第 2 章 和 第 3 章 讨论 的 协同 方法 是 有 启发 性 的 。 与 协同 方法 相 
比 ， 基 于 内 容 的 方法 具有 一 些 优 缺点 。 基 于 内 容 的 方法 的 优点 如 下 : 

1) 当 一 个 新 物品 被 添加 到 评分 和 矩阵 中 时 ， 它 没有 任何 来 自用 户 的 评分 。 基 于 记忆 和 
基于 模型 的 协同 过 滤 方 法 都 不 会 推荐 这 样 的 物品 ， 因 为 没有 足够 的 评分 可 以 用 于 推荐 。 但 
是 ， 基 于 内 容 的 方法 是 利用 用 户 之 前 评分 的 物品 来 给 出 推荐 ， 因 此 ， 只 要 不 是 新 用 户 ， 就 
可 以 通过 与 其 他 物品 比较 来 以 一 种 公平 的 方式 对 新 物品 做 出 有 意义 的 推荐 。 协 同系 统 对 于 
新 用 户 和 新 物品 都 具有 冷 启动 问题 ， 而 基于 内 容 的 系统 仅 对 新 用 户 具 有 冷 启动 问题 。 

2) 如 上 一 节 所 述 ， 基 于 内 容 的 方法 在 物品 的 特征 方面 提供 了 解释 ， 但 协同 推荐 通常 
没有 办 法 给 出 这 样 的 解释 。 

D 基于 内 容 的 方法 通常 可 以 与 现成 的 文本 分 类 器 一 起 使 用 。 此 外 ， 每 个 特定 于 用 户 
的 分 类 问题 通常 规模 不 会 像 协同 系统 中 那么 大 。 因 此 ， 它 们 在 相对 较 少 的 工程 量 下 比较 容 
易 使 用 。 

另 一 方面 ， 基 于 内 容 的 方法 也 具有 协同 推荐 所 没有 的 缺点 。 

1) 基于 内 容 的 系统 倾向 于 找到 与 用 户 迄 今 为 止 所 看 过 的 类 似 的 物品 。 这 个 问题 被 称 
为 过 度 特 化 〈overspecialization) 。 在 推荐 中 总 应 该 有 一 定 的 新 颖 性 和 偶然 性 。 新 颖 性 指 的 
是 该 物品 与 用 户 在 过 去 看 到 的 不 一 样 ， 偶 然 性 意味 着 用 户 想 要 发 现 他 们 可 能 没有 发 现 的 令 
人 惊讶 的 相关 物品 。 这 是 基于 内 容 的 系统 的 问题 ， 其 中 基于 属性 的 分 类 模型 倾向 于 推荐 非 
常 相似 的 物品 。 例 如 ， 如 果 用 户 从 未 听 过 或 评价 过 古典 音乐 ， 那 么 基于 内 容 的 系统 通常 不 
会 向 她 推荐 这 样 的 物品 ， 因 为 古典 音乐 将 通过 与 用 户 迄 今 为 止 所 评估 的 属性 值 非常 不 同 的 
属性 值 进行 描述 。 男 一 方面 ， 协 同系 统 可 以 利用 其 同 组 群体 的 兴趣 来 推荐 这 些 物品 。 例 
如 ， 协 同系 统 可 能 会 自动 发 现 某 些 流行 歌曲 和 古典 音乐 之 间 令 人 惊讶 的 关联 ， 并 将 相应 的 
古典 音乐 推荐 给 流行 音乐 爱好 者 。 过 度 特 化 和 缺乏 偶然 性 是 基于 内 容 的 推荐 系统 面临 的 两 
个 最 重要 的 挑战 。 

2) 即使 基于 内 容 的 系统 有 助 于 解决 新 物品 的 冷 启 动 问 题 ， 它 们 也 无 法 帮助 新 用 户 解 
决 冷 启动 问题 。 事 实 上 ， 对 于 新 用 户 而 言 ， 基 于 内 容 的 系统 中 的 问题 可 能 更 为 严重 ， 因 为 
文本 分 类 模型 通常 需要 足够 数量 的 训练 文档 来 避免 过 拟 合 。 只 利用 一 个 用 户 特 定 的 《小 ) 
训练 数据 集 ， 而 丢弃 所 有 其 他 用 户 的 训练 数据 似乎 是 相当 浪费 的 。 
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尽管 存在 这 些 缺 点 ， 但 基于 内 容 的 系统 通常 可 以 作为 协同 系统 的 很 好 的 补充 ， 因 为 其 
能 够 在 推荐 过 程 中 利用 基于 内 容 的 知识 。 混 合 推荐 系统 〈 参 见 第 6 章 ) 通常 会 采用 这 种 互 
补 的 行为 ， 其 目标 是 结合 两 者 的 最 佳 状 态 来 创建 更 加 强大 的 推荐 系统 。 通 常 ， 基 于 内 容 的 
系统 很 少 被 单独 地 使 用 ， 它 们 通常 与 其 他 类 型 的 推荐 系统 结合 使 用 。 


46 将 基于 内 容 的 模型 用 于 协同 过 滤 


协同 过 滤 模 型 和 基于 内 容 的 方法 之 间 有 一 个 有 趣 的 联系 。 事 实证 明 ， 基 于 内 容 的 方法 
可 以 直接 用 于 协同 过 滤 。 虽 然 物 品 的 内 容 描述 是 指 其 描述 性 关键 词 ， 但 是 可 以 设想 某 种 情 
T, 其 利用 用 户 的 评分 来 定义 基于 内 容 的 描述 。 对 于 每 个 物品 ， 可 以 将 已 评分 的 用 户 名 
(或 标识 符 ) 连接 到 该 评分 的 值 以 创建 新 的 “关键 词 ”。 因 此 ， 每 个 物品 将 被 描述 为 该 物品 
的 评分 数 。 例 如 ， 考 虑 电影 描述 如 下 : 

Terminator: John# Like, Alice # Dislike, Tom # Like 

Aliens: John # Like, Peter # Dislike, Alice # Dislike, Sayani # Like 

Gladiator; Jack # Like, Mary # Like, Alice # Like 

“# ”符号 是 分 界 符号 ， 并 确保 每 个 用 户 - 评 分 组 合 是 唯一 的 。 当 可 能 的 评分 值 数 量 较 
少 《〈 例 如 ， 一 元 或 二 元 评分 ) 时 ， 这 种 方法 通常 更 有 效 。 在 构建 了 这 样 的 基于 内 容 的 描述 
之 后 ， 可 以 结合 现成 的 基于 内 容 的 算法 来 使 用 。 所 得 到 的 方法 和 各 种 协同 过 滤 模 型 之 间 几 
乎 有 一 对 一 的 映射 ， 这 取决 于 分 类 的 基本 方法 。 虽 然 每 种 这 样 的 技术 都 能 映射 到 协同 过 滤 
模型 ， 但 是 反之 则 不 然 ， 因 为 许多 协同 过 滤 方 法 不 能 被 这 种 方法 所 包含 。 我 们 提供 一 些 映 
射 示例 如 下 : 

1) 这 种 表示 的 最 近邻 分 类 器 大 致 映射 到 协同 过 滤 中 基于 物品 的 近邻 模型 (参见 第 2 
章 2.3, 27T 

2) 内 容 上 的 回归 模型 大 致 映射 到 协同 过 滤 中 基于 用 户 的 回归 模型 〈 参 见 第 2 章 2.6.1 节 )。 

3) 内 容 上 的 基于 规则 的 分 类 器 大 致 映射 到 协同 过 滤 中 基于 用 户 的 基于 规则 的 分 类 器 
(参见 第 3 BH 3. 3.2 节 )。 

4) 内 容 上 的 贝 叶 斯 分 类 器 大 致 映射 到 协同 过 滤 中 基于 用 户 的 贝 叶 斯 模型 (参见 第 3 
章 的 习题 4) 。 

因此 ， 可 以 通过 定义 适当 的 内 容 表 示 ， 并 直接 使 用 现成 的 基于 内 容 的 方法 来 捕获 许多 
用 于 协同 过 滤 的 方法 。 这 是 重要 的 ， 因 为 它们 提供 了 许多 组 合 的 机 会 。 例 如 ， 可 以 将 基于 
评分 的 关键 词 与 实际 的 描述 性 关键 词组 合 ， 以 获得 更 加 健壮 的 模型 。 事 实 上 ， 这 种 方法 常 
用 在 一 些 混 合 推荐 系统 中 。 这 样 可 以 不 再 浪费 来 自 其 他 用 户 的 可 用 评分 数据 ， 并 且 在 统一 
框架 内 共享 基于 内 容 和 协同 过 滤 模 型 的 能 力 。 


46.1 利用 用 户 画 像 


使 用 内 容 属 性 创建 协同 过 滤 模型 的 另 一 种 情况 是 ， 当 用 户 画 像 以 特定 的 关键 词 的 形式 
可 用 时 。 例 如 ， 用 户 可 以 选择 以 关键 词 的 形式 指定 他 们 的 兴趣 。 在 这 种 情况 下 ， 我 们 不 是 
为 每 个 用 户 创建 局 部 的 分 类 模型 ， 而 是 通过 使 用 用 户 特 征 来 创建 所 有 用 户 的 全 局 分 类 模 
型 。 对 于 每 个 用 户 一 物品 的 组 合 ， 可 以 通过 使 用 相应 用 户 和 物品 SJ 的 属性 向 量 的 Krone- 
cker 乘积 来 创建 以 内 容 为 中 心 的 表示 ， 进 而 在 该 表示 上 构建 分 类 或 回归 模型 以 将 用 户 一 物 
品 的 组 合 映射 到 评分 。 第 8 章 8. 5. 3 节 详 细 讨 论 了 这 种 方法 。 
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4.7. ave 


本 章 介 绍 基于 内 容 的 推荐 系统 的 方法 ， 其 中 为 推荐 过 程 创建 特定 于 用 户 的 训练 模型 。 物 
品 描述 中 的 内 容 属性 与 用 户 评分 相 结合 ， 以 创建 用 户 画 像 。 分 类 模型 则 在 这 些 模型 的 基础 上 
创建 。 接 着 ， 这 些 模型 被 用 于 对 尚未 被 用 户 评分 的 物品 描述 进行 分 类 。 本 章 的 系统 使 用 了 许 
多 分 类 和 回归 模型 ， 如 最 近邻 分 类 器 、 基 于 规则 的 方法 、 贝 叶 斯 方法 和 线性 模型 。 由 于 贝 叶 斯 
方法 具有 处 理 各 种 类 型 内 容 的 能 力 ， 因 此 贝 叶 斯 方法 在 许多 场景 下 得 到 了 极 大 的 成 功 。 基 于 内 
容 的 系统 可 以 处 理 关于 新 物品 的 冷 启动 问题 ， 但 其 不 能 处 理 与 新 用 户 相关 的 冷 启 动 问题 。 基 于 
内 容 的 系统 给 出 的 推荐 的 偶然 性 相对 较 低 ， 因 为 基于 内 容 的 推荐 是 基于 用 户 从 前 的 评分 物品 的 。 


4.8 相关 工作 


最 早 的 基于 内 容 的 系统 归功 于 文献 [60] 以 及 Syskill 和 Webertt82,476-478] 系统 。 然 
而 ，Fab 使 用 了 部 分 组 合 设计 ， 其 中 使 用 基于 内 容 的 方法 确定 同 组 群体 ， 但 是 在 推荐 过 程 
中 利用 了 其 他 用 户 的 评分 。 文 献 [5，376，477] 提供 了 基于 内 容 的 推荐 系统 的 文章 的 概 
述 。 后 者 的 工作 旨 在 发 现 有 趣 的 网 站 ， 因 此 提供 了 许多 文本 分 类 器 的 有 效 性 测试 。 特 别 
地 ， 文 献 [82] 提供 了 关于 各 种 基于 内 容 的 系统 的 相对 性 能 的 有 用 指标 。 文 献 [83] 讨论 
了 对 用 户 建 模 的 概率 方法 。 文 献 L163, 164] 在 电子 邮件 分 类 中 使 用 基于 规则 的 系统 并 获 
得 了 显著 成 效 。 虽 然 没 有 理论 基础 ， 但 是 Rocchio 的 相关 性 反馈 [5 也 在 早期 被 使 用 ， 且 
在 许多 情况 下 表现 不 佳 。 在 文献 [21，22，400] 中 讨论 了 许多 可 用 于 基于 内 容 的 推荐 的 
文本 分 类 方法 。 文 献 [599] 中 提供 了 信息 检索 背景 下 偶然 性 概念 的 讨论 。 一 些 基 于 内 容 
的 系统 会 明确 过 滤 非 常 相似 的 物品 ， 以 改善 偶然 性 GI。 文献 [418] 讨论 了 如 何 跳出 精度 
指标 来 衡量 推荐 系统 的 质量 。 

在 文献 (21, 364, 400] 中 讨论 了 文本 分 类 中 的 特征 提取 、 清 洗 和 特征 选择 的 方法 。 
文献 L364, 662] 中 树 匹配 算法 有 利于 从 包含 多 个 块 的 网 页 中 提取 主 内 容 块 。 文 献 [126] 
描述 了 使 用 可 视 化 的 表示 法 从 Web 页 中 提取 内 容 结 构 。 有 关 分 类 的 特征 选择 度量 的 详细 
讨论 可 在 文献 [18] 中 找到 。 最 近 的 文本 分 类 调查 [2 讨论 了 文本 数据 在 某 些 特定 情况 下 
的 特征 选择 算法 。 

许多 现实 世界 的 系统 都 是 使 用 基于 内 容 的 系统 设计 的 。 最 早 的 一 些 系统 包括 Fable! 
以 及 Syskill 和 WebertL47] 。 一 个 被 称 为 Personal WebWatcher 的 早期 系统 [438,439] ， 通 过 
用 户 访问 的 网 页 学 习 用 户 的 兴趣 ， 进 而 给 出 推荐 。 此 外 ， 在 推荐 过 程 中 还 使 用 了 被 访问 页 
面 能 链接 到 的 网 页 Letizia RHO HA Web 浏览 器 扩展 来 跟踪 用 户 的 浏览 行为 ， 并 使 用 
它 来 给 出 推荐 。Dynamic-Profiler 系统 使 用 预定 义 的 类 别 分 类 来 实时 向 用 户 发 布 新 闻 推 
#591, ， 用 户 Web 日 志 用 于 学 习 偏 好 并 进行 个 性 化 推荐 。IfWeb 系统 [55 以 语义 网 络 的 形 
式 表示 用 户 兴趣 。WebMate 系统 [中 以 关键 词 向 量 的 形式 学 习 用 户 画 像 。 该 系统 旨 在 跟踪 
正面 的 用 户 兴趣 而 不 是 负面 兴趣 。Web 推荐 中 的 一 般 原则 与 新 闻 过 滤 没 有 太 大 不 同 。 文 献 
[41, 84, 85, 392, 543, 561] 讨论 了 新 闻 推 荐 。 这 些 方法 中 的 一 些 使 用 增强 的 表示 ， 如 
WordNet， 来 改进 建 模 过 程 。Web 推荐 系统 通常 比 新 闻 推荐 系统 更 具 挑 战 性 ， 因 为 底层 文 
本 通常 质量 较 差 。Citeseer 系统 J 能 够 通过 识别 论文 中 的 共同 引文 来 发 现 引 用 数据 库 中 有 
趣 的 文献 。 因 此 ， 它 明确 地 使 用 引用 作为 确定 内 容 相似 性 的 机 制 。 

基于 内 容 的 系统 也 被 用 于 其 他 领域 ， 如 书籍 、 音 乐 和 电影 。 文 献 [448] 中 讨论 了 基 
于 内 容 的 书籍 推荐 方法 。 音 乐 推荐 中 的 主要 挑战 是 容易 获得 的 特征 与 用 户 喜 欢 音 乐 的 可 能 
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性 之 间 的 语义 差距 。 这 是 音乐 和 图 像 领域 之 间 的 共同 特点 。 一 些 方法 在 拟 合 语 义 差距 方面 
取得 了 一 些 进展 038'139] 。 潘 多 拉 [683] 使 用 “音乐 基因 组 计划 ”中 提取 的 特征 做 出 推荐 。 
ITR 系统 讨论 如 何 使 用 物品 〈 例 如 书籍 或 电影 ) 的 文本 描述 9278 来 做 出 推荐 。 进 一 步 的 工 
作 避 9 显示 了 如 何在 基于 内 容 的 推荐 器 中 集成 标签 。 该 方法 使 用 诸如 WordNet 之 类 的 语言 
工具 来 提取 推荐 过 程 需要 的 知识 。INTIMATE AHO 是 使 用 文本 分 类 的 电影 推荐 系统 。 
文献 [520] 中 讨论 了 一 种 组 合 基于 内 容 和 协同 推荐 系统 的 方法 。 文 献 [117] 提供 了 混合 
推荐 系统 的 更 广泛 的 概述 。 文 献 [376] 中 提 到 潜在 工作 方向 是 通过 百科 知识 〈 如 维基 百 
BL) 获取 增强 基于 内 容 的 推荐 系统 9074,210'220 。 当 前 已 经 有 一 些 使 用 维基 百科 进行 电影 推 
荐 的 方法 十 。 不 过 有 趣 的 是 ， 这 种 方法 并 不 能 提高 推荐 系统 的 准确 性 。 高 级 语义 知识 在 
基于 内 容 的 建议 的 应 用 被 认为 是 未 来 工作 的 方向 [876] 。 


4.9 习题 


1. 假设 一 个 用 户 对 一 组 20 个 物品 提供 喜欢 /不 喜欢 评分 ， 她 将 其 中 9 个 物品 评 为 “喜欢 ”， 剩 下 的 均 为 
“不 喜欢 ”。 假 设 7 个 物品 描述 包含 “惊悚 ”"， 用 户 不 喜欢 其 中 5 个 。 计 算 相对 于 原始 数据 分 布 ， 以 及 相 
对 于 包含 单词 “惊悚 ”的 物品 的 子 集 的 基尼 指数 。 特 征 选择 算法 应 该 在 物品 描述 中 保留 该 单词 吗 ? 

» 使 用 关联 模式 挖掘 实现 基于 规则 的 分 类 器 。 

- 考虑 电影 推荐 系统 ， 其 中 电影 属于 表 中 所 示 的 一 种 或 多 种 类 型 ， 并 且 某 个 用 户 为 每 个 电影 提供 以 下 一 
组 评分 。 


w N 





Dislike 
Dislike 




















挖掘 所 有 至 少 有 33%% 支 持 度 和 75 名 置信 度 的 规则 。 根 据 这 些 规则 ， 你 会 向 用 户 推荐 物品 Test 1 或 
Test-2 13? 

4. 用 拉 普 拉 斯 平滑 实现 贝 叶 斯 分 类 器 。 

5. 使 用 贝 叶 斯 分 类 器 重复 习题 3。 不 要 使 用 拉 普 拉 斯 平滑 。 解 释 为 什么 拉 普 拉 斯 平滑 在 这 种 情况 下 很 
重要 。 

6. 重复 习题 3， 使 用 1- 近邻 分 类 器 。 

7. 对 于 训练 数据 矩阵 呈 ， 正 则 化 的 最 小 二 乘 回 归 需 要 反 演 矩阵 〈DID 二 MT)， 其 中 全 0。 请 说 明 该 矩阵 
总 是 可 逆 的 。 

8. 本 章 讨 论 的 ?分 布 由 下 列 公式 定义 ;: 


2\ (O; — E;)? 
a= 2 E; 
请 说 明 对 于 2X2 列 联 表 ， 上 述 公式 可 以 重 写 如 下 : 


2 — (O +O, +O; +O.) (010: — 0203)? 
UO + On) a+ Op) HO. (+O) 


其 中 O1…0O; 的 定义 方式 与 正文 中 的 表格 所 示 的 例子 相同 。 


| 5 章 


Recommender Systems; The Textbook 


基于 知识 的 推荐 系统 





知识 是 知道 西红柿 是 一 种 水 果 。 而 智慧 是 知道 不 要 把 西红柿 放 进 水 果 沙 拉 里 。 
Brain O’ Driscoll 
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基于 内 容 的 系统 和 协同 系统 都 要 求 关于 过 去 购买 和 评分 的 大 量 历史 数据 。 例 如 ， 协 同 
系统 需要 合理 范围 内 大 量 的 评分 矩阵 ， 以 用 于 未 来 的 推荐 。 在 数据 有 限 的 情况 下 ， 推 荐 系 
统 要 么 很 差 ， 要 么 无 法 覆盖 用 户 - 物 品 的 所 有 组 合 。 这 个 问题 也 被 称 作 冷 启动 问题 。 关 于 
这 个 问题 ， 不 同系 统 的 敏感 度 不 同 。 例 如 ， 协 同系 统 具 有 最 高 的 敏感 度 ， 它 不 能 很 好 地 处 
理 新 增 物 品 和 新 增 用 户 。 基 于 内 容 的 推荐 系统 在 某 种 程度 上 能 够 更 好 地 处 理 新 增 物品 ， 但 
是 仍然 无 法 为 新 增 用 户 提 供 推荐 。 

此 外 ， 一般 情 况 下 ， 这 些 方法 不 适用 于 产品 高 度 定制 的 领域 。 如 不 动产 、 汽 车 、 旅 游 
产品 、 金 融 服务 或 昂贵 的 奢侈 品 。 这 些 物品 很 少 被 购买 ， 不 能 得 到 充分 的 评分 。 在 很 多 情 
况 下 ， 物 品 的 定义 域 可 能 很 复杂 ， 那 些 具有 特殊 性 质 的 特定 物品 可 能 只 有 很 少 的 实例 。 例 
如 ， 用 户 可 能 需要 购买 要 求 规 定数 量 的 卧室 、 草 坪 、 位 置 等 的 房子 。 由 于 物品 描述 的 复杂 
性 ， 可 能 很 难 获得 一 个 合理 的 集合 用 于 反映 用 户 对 于 类 似 物品 的 评分 历史 。 类 似 地 ， 对 于 
某 种 特定 配置 的 汽车 的 历史 评分 可 能 也 不 适用 于 当前 情况 。 

如 何 处理 这 种 个 性 化 配置 和 评分 缺失 呢 ? 基于 知识 的 推荐 系统 很 少 依赖 明确 的 用 户 请 
求 。 然 而 ， 在 这 样 复 杂 的 领域 ， 用 户 很 难 清晰 闻 明 甚至 清楚 了 解 其 需求 如 何 与 产品 匹配 。 
例如 ， 用 户 可 能 根本 不 知道 汽车 的 燃料 效率 和 马力 之 间 的 对 应 关系 。 因 此 ， 这 些 系统 利用 
与 用 户 的 交互 反馈 ， 人 允许 用 户 探索 内 在 复杂 的 产品 空间 以 及 学 会 在 多 种 选择 之 间 进 行 折 
中 。 知 识 库 描述 了 物品 域 中 不 同 特征 的 效用 及 其 折 中 ， 从 而 促进 检索 和 探索 过 程 。 知 识 库 
在 实现 检索 和 探索 的 过 程 中 十 分 重要 ， 这 样 的 推荐 系统 被 称 为 基于 知识 的 推荐 系统 。 

基于 知识 的 推荐 系统 尤其 适用 于 非 定期 购买 的 物品 推荐 。 此 外 ， 在 这 样 的 物品 域 中 ， 
用 户 在 明确 其 需求 上 是 活 牙 的 。 用 户 很 愿意 在 提供 较 少 输入 的 情况 下 接受 电影 的 推荐 ， 但 
是 不 愿意 在 没有 指定 物品 特征 的 具体 信息 的 情况 下 接受 房子 或 汽车 的 推荐 。 因此， 基于 知 
识 的 推荐 系统 适用 的 物品 是 不 同 于 协同 过 滤 和 基于 内 容 的 推荐 系统 的 。 通 常 说 来 ， 基 于 知 
识 的 推荐 系统 适合 如 下 情况 : 

1) 用 户 想 要 明确 描述 其 需求 。 因 此 ， 系 统 中 必须 有 交互 组 件 。 协 同 过 滤 和 基于 内 容 
的 系统 都 不 允许 这 种 类 型 的 用 户 反 馈 。 

2) 由 于 物品 的 类 型 和 选项 所 导致 的 物品 域 的 复杂 性 ， 某 些 特 定 类 型 的 物品 的 评分 可 
能 很 难 获得 。 

3) 在 一 些 领 域 中 (例如 计算 机 )， 评 分 可 能 是 对 时 间 敏 感 的 。 陈 旧 的 汽车 或 计算 机 的 
评分 在 推荐 系统 中 是 没有 用 的 ， 因 为 这 些 物品 会 随 着 用 户 需 求 的 变化 进行 更 新 换代 。 

在 基于 知识 的 推荐 系统 中 ， 一 个 重要 的 部 分 是 用 户 在 推荐 的 过 程 中 拥有 更 强 的 控制 
权 。 这 种 更 强 的 控制 权 是 在 复杂 问题 域 中 将 需求 细 化 的 直接 结果 。 表 5-1 给 出 三 种 推荐 系 
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统 概念 层次 上 的 比较 。 注 意 在 不 同 的 推荐 系统 中 ， 输 入 的 数据 也 是 明显 不 同 的 。 协 同系 统 
和 基于 内 容 的 推荐 系统 主要 基于 历史 数据 ， 而 基于 知识 的 推荐 系统 是 基于 用 户 描述 的 需求 
说 明 。 基 于 知识 的 推荐 系统 的 一 个 显著 特征 就 是 在 特定 领域 中 的 高 度 个 性 化 定制 。 通 过 知 
识 库 来 实现 个 性 化 的 定制 ， 知 识 库 中 以 域 或 相似 性 度量 的 方式 杠 入 领域 知识 。 除 了 利用 
物品 属性 ， 某 些 基 于 知识 的 推荐 系统 也 会 利用 查询 时 指定 的 用 户 属 性 (如 入 口 统计 属 
性 )。 在 这 种 情况 下 ， 领 域 知识 也 可 以 包含 用 户 属性 和 物品 属性 之 间 的 关系 。 然 而 ， 这 
些 属性 的 应 用 在 基于 知识 的 推荐 系统 中 并 不 普遍 ， 因 为 在 此 类 推荐 系统 中 主要 关注 的 是 
用 户 需求 。 


表 5-1 不 同 推荐 系统 的 概念 目标 














基于 协同 的 方法 利用 用 户 本 人 或 同伴 的 评分 和 活动 ， 


Ha 给 出 推荐 结果 


用 户 评分 十 社区 评分 









基于 用 户 过 去 对 内 容 (属性 ) 的 评分 和 活动 ， 给 出 推 


荐 结果 用 户 评 分 十 物品 属性 








基于 用 户 明确 的 内 容 (属性 ) 需求 说 明 ， 给 出 推荐 结果 | 用 户 需求 说 明 十 物品 属性 十 领域 知识 


根据 用 户 的 交互 方法 和 辅助 用 户 交互 的 相关 知识 库 ， 基 于 知识 的 推荐 系统 可 以 被 分 为 
两 类 : 

1) 基于 约束 的 推荐 系统 : 在 基于 约束 的 推荐 系统 中 ss'87] ， 用 户 指 定 需求 或 约 东 
《如 物品 属性 的 下 限 或 上 限 )， 然 后 利用 特定 领域 的 规则 匹配 用 户 需 求 或 物品 属性 。 这 些 规 
则 代表 了 系统 中 使 用 的 领域 知识 。 这 些 规则 使 用 物品 属性 上 的 特定 域 约束 条 件 (如 “1970 
年 以 前 的 汽车 没有 恒 速 操纵 器 ")。 此 外 ， 基 于 约束 的 系统 建立 关于 用 户 属 性 和 物品 属性 关 
系 的 规则 《〈 如 “ 较 年 长 的 投资 者 不 会 投资 超 高 风险 的 物品 ”) 。 在 这 些 情 况 下 ， 也 可 以 在 搜 
索 过 程 中 指定 用 户 属 性 。 基 于 返回 结果 的 数量 和 类 型 ， 用 户 有 机 会 修改 最 初 的 需求 。 例 
如 ， 当 返回 结果 较 少 时 ， 可 以 适当 放松 约束 条 件 的 限制 ， 返 回 结 果 多 时 ， 可 以 增加 一 些 约 
束 条 件 。 这 个 交互 式 的 搜索 过 程 不 断 重 复 ， 直 到 用 户 达到 他 期 望 的 目的 才 终 止 。 

2) 基于 案例 的 推荐 系统 : 在 基于 案例 的 推荐 系统 中 002,16,377,558] ， 由 用 户 来 指定 特 
定 实例 作为 目标 或 销 点 。 在 物品 属性 上 定义 相似 性 度量 ， 以 便 检索 与 目标 相似 的 物品 。 相 
似 性 度量 通常 以 领域 相关 的 方式 谨慎 地 被 定义 。 因 此 ， 相 似 性 度量 就 构成 了 该 系统 中 的 领 
域 知识 。 返 回 的 结果 通过 与 用 户 交互 被 当 作 新 的 目标 实例 。 例 如 ， 当 用 户 看 到 一 个 与 其 预 
期 结果 很 相近 的 返回 结果 时 ， 他 就 会 再 发 出 一 个 查询 ， 通 过 修改 一 些 属性 ， 找 到 他 最 想 得 
到 结果 。 与 此 同时 ， 有 针对 性 的 批评 可 以 对 一 些 属性 值 大 于 或 小 于 特定 值 的 物品 进行 前 
枝 。 这 个 交互 过 程 会 引导 用 户 得 到 最 终 的 推荐 结果 。 

注意 ， 上 述 两 种 系统 都 允许 用 户 修改 其 需求 。 然 而 ， 这 两 种 系统 的 实现 方法 是 不 同 
的 。 在 基于 案例 的 系统 中 ， 将 实例 作为 “ 锚 点 ”， 再 结合 相似 性 度量 ， 二 者 共同 引导 搜索 。 
然而 在 基于 约束 的 系统 中 ， 使 用 特定 的 标准 /规则 (约束 ) 来 指导 搜索 。 这 两 种 情况 下 ， 
返回 的 结果 都 被 用 来 修改 搜索 标准 ， 以 便 得 到 进一步 的 推荐 结果 。 根 据 向 约束 中 嵌入 的 领 
域 知 识 不 同 〈 如 约束 、 规 则 、 相 似 性 度量 、 效 用 函数 )， 基 于 知识 的 推荐 系统 被 赋予 不 同 
的 名 字 。 例 如 ， 相 似 性 度量 或 约束 的 设计 要 求 特定 的 领域 知识 ， 这 对 于 推荐 系统 的 有 效 性 
是 至 关 重 要 的 。 总 的 来 说 ， 与 需要 不 同 域 上 的 相似 类 型 数据 的 基于 内 容 和 协同 的 推荐 系统 
相 比 ， 基 于 知识 的 推荐 系统 可 以 在 高 度 异 构 、 领 域 相关 的 源 上 工作 。 所 以 ， 基 于 知识 的 系 
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统 是 个 性 化 的 ， 在 不 同 的 领域 上 是 不 能 够 统一 的 。 不 过 ， 个 性 化 定制 中 的 很 多 原则 是 不 随 
着 领域 的 变化 而 变化 的 。 本 章 就 是 讨论 这 些 不 变 的 原则 。 

利用 会 话 系统 、 基 于 搜索 的 系统 、 导 航 系统 进行 用 户 和 推荐 之 间 的 交互 。 这 些 不 同形 
式 的 引导 要 么 独立 执行 ， 要 么 组 合 执行 ， 定 义 如 下 。 

1) 会 话 系统 : 用 户 偏好 由 反馈 循环 的 内 容 决 定 。 因 为 物品 的 域 很 复杂 ， 且 用 户 的 偏 
好 只 能 在 会 话 系统 的 交互 过 程 中 决定 。 

2) 基于 搜索 的 系统 : 用 户 偏 好 由 预先 设置 的 问题 序列 决定 ， 例 如 “你 想 要 近郊 还 是 
市 区 的 房子 ?”。 

3) 导航 系统 : 用 户 指定 当 前 推荐 物品 的 更 改 请 求 。 通 过 和 迭代 地 更 改 需求 ， 最 终 找到 
用 户 想 要 的 物品 。 一 个 用 户 更 改 请 求 的 例子 如 : 当 系 统 推荐 一 个 特定 的 房子 时 ， 用 户 提 出 
“我 想 要 当前 推荐 房子 西部 大 概 5 英里 范围 的 相似 房子 ”。 这 类 推荐 系统 也 被 称 为 批评 推荐 
系统 (critiquing recommender System)[120, 121. 417] 。 

上 述 不 同类 型 的 引导 系统 适合 不 同类 型 的 推荐 系统 。 例 如 ， 批 评 系统 主要 是 为 基于 
案例 的 推荐 系统 设计 ， 通 过 批评 一 个 特定 实例 达到 最 终结 果 。 男 一 方面 ， 基 于 搜索 的 系 
统 可 以 为 基于 约束 的 推荐 系统 设置 用 户 需 求 。 某 些 引 导 形 式 可 以 同时 运用 在 基于 约束 和 
基于 案例 的 系统 中 。 更 进一步 ， 基 于 知识 的 推荐 系统 可 以 对 不 同 的 引导 形式 进行 组 合 。 
基于 知识 的 系统 ， 其 设计 和 接口 没有 严格 的 规则 限制 。 目标 就 是 通过 复杂 的 产品 空间 
引导 用 户 。 

基于 约束 推荐 和 基于 案例 推荐 的 交互 过 程 分 别 在 图 5-1a 和 图 5-1b 中 给 出 说 明 。 总 体 
的 交互 过 程 是 相似 的 。 这 两 种 情况 的 最 大 不 同 在 于 用 户 通过 特定 查询 以 及 与 系统 交互 ， 来 
对 后 面 的 结果 进行 提炼 。 在 基于 约束 的 系统 中 ， 用 户 指 定 特定 需求 (约束 )。 在 基于 案例 
的 系统 中 ， 用 户 指 定 特 定 的 目标 (案例 )。 相 应 地 ， 在 两 个 系统 中 使 用 不 同类 型 的 交互 过 
程 和 领域 知识 。 在 基于 约束 的 系统 中 ,原始 用 户 设 置 的 查询 需求 通过 增加 、 删 除 、 修 改 、 
放松 等 操作 进行 修改 。 在 基于 案例 的 系统 中 ， 要 么 通过 用 户 交互 修改 目标 ， 要 么 通过 用 户 
有 方向 的 引导 对 搜索 结果 剪 枝 ， 用 户 只 需要 简单 地 说 明 在 搜索 结果 中 是 否 需要 通过 某 种 方 
法 增加 、 删 除 、 改 变 一 个 特定 的 属性 。 这 样 的 方式 比 普通 的 修改 目标 方式 显示 出 更 明显 的 
对 话 特 点 。 这 些 系统 假设 用 户 在 复杂 物品 域 中 无 法 清晰 陈述 其 需求 。 在 基于 约束 的 系统 
中 ， 利 用 知识 库 规 则 把 用 户 需 求 映 射 到 物品 属性 来 解决 这 个 问题 ; 在 基于 案例 的 系统 中 ， 
通过 批评 的 会 话 方式 来 解决 这 个 问题 。 这 两 个 系统 都 存在 交互 的 过 程 ， 帮 助 用 户 在 复杂 物 
品 域 中 发 现 符合 需求 的 物品 。 

值得 注意 的 是 ， 大 多 数 基于 知识 的 推荐 系统 都 更 依赖 于 以 关系 属性 描述 物品 ， 而 不 是 
像 在 基于 内 容 的 系统 中 把 它们 看 作文 本 关键 词 S 。 这 是 因为 基于 知识 的 推荐 中 包含 特定 领 
域 的 知识 ， 并 可 以 很 容易 用 关系 属性 描述 。 例 如 ， 考 虑 不 动产 的 应 用 ， 表 5-2 给 出 房子 的 
属性 描述 。 在 基于 案例 的 推荐 中 ， 相 似 性 度量 根据 这 些 属性 定义 ， 用 于 匹配 与 用 户 目 标 相 
似 的 结果 。 每 个 关系 属性 在 匹配 过 程 中 具有 重要 的 意义 和 权重 ， 这 个 依赖 于 特定 领域 的 标 
准 。 在 基于 约束 的 系统 中 ， 查 询 以 特定 属性 的 方式 描述 ， 例 如 房子 的 最 高 价格 或 特定 的 位 
置 。 因 此 ， 该 问题 可 归 约 为 约束 可 满足 问题 的 一 个 实例 ， 约 束 可 满足 问题 是 发 现 满 足 所 有 
约束 的 实例 相关 集合 。 


O ”基于 内 容 的 系统 在 信息 检索 和 基于 关系 的 环境 中 都 有 应 用 ， 而 基于 知识 的 系统 主要 应 用 于 基于 关系 的 环境 。 
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属性 之 间 的 规则 ) 


修改 目标 和 
减少 候选 集 
以 后 的 查询 





b) 基于 案例 的 交互 
图 5-1 基于 知识 的 推荐 系统 的 交互 过 程 


表 5-2 购房 推荐 应 用 中 的 属性 举例 


Bronx Townhouse 









Floor Area Price 















1600 220 000 

















Chappaqua Split-level 3600 973 000 


Yorktown 
Yorktown Condo 
Ossining Colonial 
本 章 组 织 结构 如 下 。5. 2 节 介 绍 基于 约束 的 推荐 系统 。5. 3 节 介 绍 基 于 案例 的 推荐 系 
统 。5.4 节 介绍 基于 知识 系统 中 的 个 性 化 设置 。5. 5 节 给 出 本 章 小 结 。 









630 000 





220 000 











430 000 
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5.2 基于 约束 的 推荐 系统 


基于 约束 的 推荐 系统 允许 用 户 在 物品 属性 上 指定 需求 或 约束 ， 并 利用 规则 集 匹 配 用 户 
需求 和 物品 的 属性 。 然 而 ， 顾 客 不 可 能 永远 基于 物品 的 同一 属性 描述 查询 。 因 此 ， 需 要 增 
加 一 个 规则 的 额外 集合 ， 将 顾客 需求 与 物品 属性 相关 联 。 针 对 表 5-2 给 出 的 房屋 购买 的 例 
子 ， 下 面 给 出 一 些 顾 客 指定 属性 的 实例 : 

Marital-status (categorical), Family-Size (numerical), suburban-or-city (binary), Min- 

Bedrooms (numerical), Mar-Bedrooms (numerical), Maz-Price (numerical) 

这 些 属性 可 能 代表 顾客 的 固有 特性 (如 入 口 统计 资料 )， 也 可 能 表示 顾客 对 物品 的 需 
求 。 这 些 需 求 通常 通过 顾客 与 推荐 系统 之 间 的 规划 来 交互 式 地 确定 。 有 很 多 需求 属性 在 
表 5-2 中 并 没有 给 出 。 某 些 顾客 需求 属性 到 物品 属性 的 映射 是 显而易见 的 ， 如 最 高 价格 ; 
而 有 些 属性 的 映射 不 是 特别 明显 ， 如 郊区 还 是 市 区 。 类 似 地 ， 在 金融 应 用 中 ， 顾 客 给 出 产 
品 需求 “保守 投资 "”， 需 要 映射 到 产品 属性 (如 “Asset-type 二 Treasuries”)。 很 明显 ， 必 
须 将 顾客 属性 /需求 映射 到 产品 属性 上 来 用 于 推荐 系统 的 过 滤 ， 这 是 通过 利用 知识 库 实现 
的 。 知 识 库 包 含 额 外 的 规则 ， 将 顾客 属性 /需求 映射 到 产品 属性 上 : 

Suburban-or-rural = Suburban = Locality = (List of relevant localities 》 

这 些 规则 可 以 被 当 作 过 滤 条 件 ， 它 们 将 用 户 需 求 映 射 到 产品 属性 上 ， 并 利用 该 映射 过 滤 检 
索 结 果 。 这 些 类 型 的 规则 大 多 数 来 自 产 品 域 ， 少 部 分 来 自 数 据 集 的 挖掘 结果 。 在 这 种 特殊 
情况 下 ， 利 用 公开 获得 的 地 理 信 息 来 得 到 这 些 规 则 。 另 一 个 例子 是 汽车 领域 ， 其 中 某 些 属 
性 是 可 选 的 。 例 如 ， 高 扭矩 引擎 只 有 在 运行 模型 中 才能 得 到 。 这 些 条 件 被 称 为 相 容 性 条 
件 ， 因 为 其 可 以 被 用 来 快速 发 现 产品 域 与 用 户 需 求 的 不 一 致 。 在 很 多 情况 下 ， 这 样 的 相 容 
性 约束 集成 在 用 户 接口 中 。 例 如 ， 汽 车 定价 网 站 Edmunds. com 不 允许 用 户 输入 与 用 户 接 
口 不 一 致 的 请 求 。 在 其 他 应 用 中 ， 不 一 致 检测 在 用 户 接口 中 是 无 法 实现 的 ， 此 时 只 能 通过 
查询 结果 返回 空 集 来 进行 不 一 致 检测 。 

其 他 的 一 些 相 容 性 约束 将 顾客 属性 相关 联 。 当 顾客 在 交互 过 程 中 指定 与 其 相关 的 个 人 
舍 息 时 〈 如 人 口 统计 信息 )， 这 样 的 约束 是 有 用 的 。 例 如 ， 人 口 统计 属性 可 能 与 基于 特定 
域 约束 或 历史 经 验 的 顾客 产品 需求 相关 。 下 面 举 出 此 类 约束 的 例子 : 

Marital-status = single = Min-Bedrooms <5 
基于 领域 相关 的 经 验 或 对 历史 数据 的 挖掘 结果 ， 可 以 推测 单身 者 不 会 购买 非常 大 的 房子 。 
类 似 地 ， 小 房子 也 不 适合 大 家 庭 。 该 约束 可 以 形式 化 为 下 述 规则 : 
Family-Size > 5 = Min-Bedrooms 之 3 

因此 ， 基 于 约束 的 推荐 系统 有 三 种 类 型 的 基本 输入 : 

1) 第 一 种 类 型 的 输入 由 属性 描述 用 户 的 固有 性 质 〈 如 人 口 统 计 或 风险 报告 )， 以 及 产 
品 的 特定 需求 〈 如 最 小 卧室 数 ) 。 这 些 属 性 中 的 一 些 可 以 直接 和 产品 属性 关联 起 来 ， 而 另 
一 些 必 须 通过 知识 库 才 能 与 产品 属性 关联 。 大 多 数 情况 下 ， 在 交互 环节 说 明 顾 客 性 质 和 需 
求 ， 但 是 这 些 需求 在 不 同 的 环节 可 能 会 不 一 样 。 因 此 ， 如 果 另 一 个 用 户 在 一 个 环节 中 指定 
了 相同 的 需求 集合 ， 他 们 就 会 得 到 相同 的 结果 。 这 与 其 他 类 型 的 推荐 系统 不 同 ， 它 们 的 个 
性 化 推荐 是 基于 历史 数据 的 ， 不 会 发 生 改 变 。 

2) 第 二 种 类 型 的 输入 由 知识 库 表 示 ， 把 顾客 属性 /需求 映射 到 不 同 的 产品 属性 上 。 映 
射 可 以 通过 直接 或 间接 方法 得 到 : 

。 直接 : 规则 将 顾客 需求 与 硬性 产品 属性 需求 相关 联 。 下 面 给 出 示例 : 
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Suburban-or-rural = Suburban = Locality = List of relevant localities 
Min-Bedrooms > 3 = Price > 100 000 
这 样 的 规则 也 被 看 作 过 滤 条 件 。 
。 间接 : 规则 将 顾客 属性 /需求 与 期 望 的 典型 产品 需求 相关 联 。 因 此 ， 这 类 规则 可 以 
被 看 作 关联 顾客 属性 与 产品 属性 的 间接 途径 。 下面 给 出 示例 : 
Family-Size > 5 => Min-Bedrooms > 3 
Family-Size > 5 = Min-Bathrooms > 2 
上 面 规则 的 两 边 都 代表 顾客 属性 ， 尽 管 右 边 一 般 表 示 顾 客 的 需求 ， 但 是 可 以 很 容易 
地 被 映射 到 产品 属性 上 。 这 些 约束 表示 相 容 性 约束 。 相 容 性 约束 或 过 滤 条 件 和 顾客 
指定 的 需求 不 一 致 时 ， 推 荐 列表 为 空 。 
前 文 提 到 的 知识 库 由 公开 可 得 信息 、 领 域 专家 、 经 验 以 及 历史 数据 集 的 挖掘 结果 得 
到 。 因 此 ， 构 建 知识 库 需 要 耗费 较 多 精力 。 
3 最 后 ， 产 品目 录 包 含 具 备 相应 的 物品 属性 的 所 有 产品 。 表 5- 2 给 出 一 个 房屋 购买 
的 产品 目录 快照 的 例子 。 
因此 ， 该 问题 可 归结 为 如 何 确定 所 有 满足 用 户 需 求 和 知识 库 规则 的 产品 列表 。 


5.2.1 返回 相关 结果 


返回 相关 结果 的 问题 可 以 被 看 作 是 约束 可 满足 问题 的 一 个 实例 ， 把 目录 中 的 每 个 物品 
看 作 是 属性 中 的 约束 ， 用 析 取 范式 表达 目录 。 表 达 式 与 知识 库 中 的 规则 相 结 合 ， 判 断 物品 
空间 是 否 存 在 相互 一 致 的 区 域 。 

更 简单 地 说 ， 规 则 和 需求 的 设置 可 以 被 看 作 是 日 志 中 的 过 滤 任 务 。 所 有 顾客 需求 和 与 
顾客 相关 的 活跃 规则 被 用 于 构建 数据 库 选择 查询 。 创 建 过 滤 查 询 的 步骤 如 下 : 

D 对 于 用 户 在 用 户 接 口中 指定 的 请 求 (个 人 属性 )， 检 查 其 是 否 匹 配 知 识 库 中 规则 的 
前 件 。 如 果 存 在 匹配 ， 规 则 的 结果 就 被 看 作 有 效 的 选择 条 件 。 例 如 ， 前 面 提 到 的 不 动产 例 
子 中 ， 如 果 顾 客 在 用 户 接 口中 指定 属性 和 个 人 偏好 Family-Size=6 H ZIP Code= 10547, 
用 下 面 规则 可 发 现 Family-Size 二 6: 

Family-Size 5 => Min-Bedrooms > 3 
Family-Size=> 5 = Min-Bathrooms > 2 
因此 ， 这 些 条 件 的 结果 被 加 到 用 户 需求 里 ， 用 这 些 扩展 的 需求 重新 检查 规则 库 。 新 加 入 的 
约束 Min-Bedrooms 之 3 引入 下 面 新 的 规则 ; 
Min-Bedrooms> 3 = Price > 100 000 
Min-Bedrooms > 3 = Bedrooms > 3 
Min-Bathrooms = 3 = Bathrooms > 2 
因此 ， 条 件 Price 宇 100 000 和 属性 Min-Bedrooms, Min-Bathrooms 上 的 范围 约束 由 物品 上 的 
属性 Bedrooms, Bathrooms 代 震 。 在 下 一 次 迭代 中 ， 没 有 额外 的 条 件 可 以 被 加 入 用 户 请 求 中 。 

2) 在 析 取 范式 中 ， 用 扩展 需求 构建 数据 库 查 询 。 这 表示 传统 数据 库 选择 查询 ， 计 算 
物品 目录 中 下 列 约束 的 交集 : 

(Bedrooms > 3) A (Bathrooms > 2) A (Price > 100 000) A (ZIP Code = 10547) 

这 种 方法 本 质 上 将 顾客 属性 约束 和 请 求 属 性 约束 映射 到 物品 域 的 约束 上 。 

3) 用 选择 查询 检索 与 用 户 请 求 相关 的 目录 中 的 实例 。 

值得 注意 的 是 ， 大 多 数 基 于 约束 的 系统 允许 用 户 在 自己 的 部 分 对 需求 或 属性 (如 偏 
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好 、 人 口 统计 信息 ) 进行 说 明 。 换 名 话说 ， 指 定 的 信息 并 不 是 一 成 不 变 的 ; 如 果 另 一 个 用 
户 也 提出 了 相同 的 需求 ， 他 们 将 得 到 相同 的 结果 。 对 于 大 多 数 基于 知识 的 系统 ， 这 种 情况 
是 普遍 存在 的 。5. 4 节 讨 论 了 基于 知识 的 系统 的 不 变性 最 近 的 研究 进展 。 

满足 约束 的 物品 结果 列表 提供 给 用 户 。 本 节 后 面 将 讨论 排序 物品 的 方法 。 用 户 可 以 修 
改 请 求 ， 获 取 更 准确 的 推荐 。 探 索 和 提炼 的 总 过 程 让 顾客 发 现 意 想不到 的 推荐 。 


5.2.2 交互 方法 


用 户 和 推荐 系统 之 间 的 交互 进行 过 程 如 下 : 

D 用 户 利用 交互 界面 说 明 初 始 偏 好 。 一 种 常见 的 方法 是 利用 网 页 表格 ， 其 中 可 以 填 
人 需要 属性 的 值 。 图 5-2 给 出 一 个 房屋 购买 的 例子 。 用 户 会 被 问 到 一 系列 问题 ,来 明确 他 
们 的 初始 偏好 。 例 如 ， 汽 车 推荐 网 页 Edmunds, com 给 用 户 提出 一 些 问 题 ， 关 于 一 些 特 定 
的 特征 让 用 户 说 明 其 偏好 。 第 一 个 界面 的 答案 可 能 影响 到 下 一 个 界面 的 问题 。 


EXAMPLE OF HYPOTHETICAL CONSTRAINT-BASED INTERFACE 
FOR HOME BUYING (constraint-example.com) 


| WOULD LIKE TO BUY A HOUSE SATISFYING THE FOLLOWING REQUIREMENTS; 


intrisa fhort Toomega: Tepis 





图 5-2 一 个 基于 约束 的 推荐 系统 中 初始 用 户 界 面 的 假设 示例 (constraint-example. com) 


2) 给 用 户 提供 匹配 物品 的 排序 列表 ， 并 解释 一 下 物品 返回 的 原因 。 一 些 情况 下 可 能 没 
有 满足 用 户 需求 的 物品 。 此 时 ， 可 以 对 请 求 进 行 适当 的 放松 。 例 如 ， 在 图 5-3 中 ,查询 没有 
返回 结果 ， 建 议 采 取 可 能 的 放松 条 件 。 在 某 些 情况 下 ， 返 回 的 物品 太 多 ， 需 要 增加 一 些 约束 
(需求 )。 例 如 ， 在 图 5-4 中 ,返回 了 过 多 的 结果 ， 因 此 给 查询 增加 了 一 些 可 能 的 约束 条 件 。 


YOU SPECIFIED THE FOLLOWING REQUIREMENTS (CURRENT VALUES IN BRACKETS); 


er EEE AE 
a W. BATH (1) 


YOUR QUERY RETURNED 0 RESULTS. MODIFY YOUR SEARCH ACCORDING TO THE 
SUGGESTIONS BELOW: 


EITHER REDUCE MIN. BR FROM 5 OR INCREASE MAX. PRICE FROM $70K. 





图 5-3 在 一 个 基于 约束 的 推荐 系统 中 用 于 处 理 空 查 询 结果 的 一 个 用 户 界 面 的 假设 示例 


(constraint- example. com) 
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BELOW TO REDUCE MATCHES: 


* CHANGE HOME STYLE FROM CAPE TO COLONIAL. 





5-4 ”在 一 个 基于 约束 的 推荐 系统 中 用 于 处 理 大 量 查询 结果 的 一 个 用 户 界面 的 假设 示例 


(constraint-example. com) 


3) 用 户 根 据 返 回 结 果 重 新 定义 其 需求 ， 可 以 增加 额外 的 需求 或 移 除 某 些 需 求 。 例 如 ， 
当 返 回 的 结果 为 空 时 ， 就 需要 放松 某 些 需 求 。 用 约束 可 满足 方法 识别 需要 放松 的 可 能 候选 
约束 集 。 因 此 ， 系 统 可 以 帮助 用 户 更 智能 有 效 地 修改 查询 。 

因此 ,该 整体 方法 使 用 一 个 迭代 反馈 循环 来 帮助 用 户 做 出 有 意义 的 决策 。 设 计 一 个 系 
统 ， 其 可 以 引导 用 户 以 达到 提高 她 对 可 用 选择 的 认识 的 需求 ， 是 至 关 重 要 的 。 

这 种 交互 有 几 个 方面 ， 需 要 显 式 计算 以 帮助 用 户 。 例 如 ， 一 位 用 户 通常 将 不 会 为 所 有 
产品 的 属性 指定 期 望 值 。 具 体 来 说 ， 在 我 们 的 购房 示例 中 ， 用 户 可 能 仅 对 卧室 的 数量 指定 
约束 ， 但 不 对 价格 指定 任何 约束 。 在 这 种 情况 下 有 几 种 解决 方案 是 可 行 的 : 

D 系统 可 以 使 其 他 属性 不 受 约束 ， 并 且 仅 基于 已 指定 的 约束 来 检索 结果 。 例 如 ， 可 
以 考虑 所 有 可 能 的 价格 范围 ， 以 便 向 用 户 提供 第 一 组 响应 。 虽 然 这 可 能 是 最 合理 的 选择 ， 
但 是 当 用 户 的 查询 被 明确 指定 好 时 ， 在 响应 数量 较 多 的 情况 下 这 可 能 不 是 一 个 有 效 的 解决 
方案 。 

2) 在 某 些 情 况 下 ， 可 能 会 为 用 户 建议 一 些 默认 值 ， 以 提供 向 导 。 默 认 值 只 用 于 指导 
用 户 选 择 值 ， 或 者 如 果 用 户 没有 为 该 属性 选择 任何 值 〈 包 括 默认 值 )， 则 默认 值 将 实际 用 
于 查询 。 可 以 认为 ， 在 查询 中 包括 默认 值 〈 没 有 明确 指定 ) 可 能 会 导致 推荐 系统 中 的 显著 
偏差 .特别 是 在 默认 值 没有 被 充分 研究 时 。 一 般 来 说 ， 默 认 值 只 能 作为 给 用 户 的 一 条 建 
议 。 这 是 因为 默认 值 的 主要 目的 应 朝 着 自然 值 的 方向 引导 用 户 ， 而 不 是 替代 未 指定 的 
选项 。 

如 何 确定 默认 值 ? 在 大 多 数 情况 下 ， 需 要 以 领域 相关 的 方式 选择 默认 值 。 此 外 ， 默 认 
值 中 的 某 些 值 可 能 会 受到 其 他 值 的 影响 。 例 如 ， 所 选择 的 一 个 汽车 型 号 的 功率 可 能 经 常 反 
映 出 所 期 望 的 燃油 效率 。 知 识 库 需 要 显 式 存储 有 关 这 些 默 认 值 的 数据 。 在 某 些 情况 下 ， 来 
自用 户 会 话 的 历史 数据 是 可 用 的 ， 可 以 学 习 默 认 值 。 对 于 各 种 用 户 ， 在 查询 会 话 中 其 指定 
的 属性 值 是 可 能 获得 的 ， 包 括 缺 少 的 值 。 各 种 会 话 的 平均 值 可 能 被 用 作 默 认 值 。 考 虑 一 个 
由 Alice 发 起 的 购买 汽车 的 查询 会 话 。 最 初 ， 她 的 默认 值 是 根据 历史 会 话 的 平均 值 计算 的 。 
然而 ， 如 果 她 指定 了 汽车 的 所 需 功 率 ， 则 界面 会 自动 调整 其 燃油 效率 的 默认 值 。 这 个 新 的 
默认 值 是 基于 汽车 的 燃油 效率 的 平均 值 ， 这 是 在 具有 相似 功率 的 汽车 的 历史 会 话 中 指定 
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的 。 在 某 些 情况 下 ， 系 统 可 能 会 根据 知识 库 的 可 行 性 约束 自动 调整 默认 值 。 当 用 户 在 界面 
中 指定 越 来 越 多 的 值 时 ， 只 能 通过 在 当前 规定 的 近邻 中 的 会 话 来 计算 平均 值 。 

在 发 出 查询 后 ， 系 统 会 提供 一 个 目录 中 可 能 匹配 的 排名 列表 。 因 此 ， 能 够 有 意义 地 对 
这 些 匹配 进行 排序 是 很 重要 的 ， 并 且 如 果 需 要 ， 还 要 提供 推荐 结果 的 说 明 。 在 返回 的 匹配 
结果 集 太 小 或 太 大 的 情况 下 ， 可 以 放宽 或 收 紧 需 求 以 向 用 户 提供 进一步 的 指导 。 值 得 注意 
的 是 ， 提 供 解释 也 是 指导 用 户 进行 更 有 意义 的 查询 优化 的 一 种 聪明 的 方法 。 接 下 来 ， 我 们 
将 讨论 交互 式 用 户 指 导 的 各 个 方面 。 


5.2.3 排序 匹配 的 物品 


存在 一 些 根据 用 户 需 求 对 物品 进行 排序 的 自然 方法 。 最 简单 的 方法 是 允许 用 户 指 定 一 
个 单一 的 数字 属性 ， 根 据 该 属性 对 这 些 物品 进行 排序 。 例 如 ， 在 购房 应 用 中 ， 系 统 可 能 向 
用 户 提供 基于 住宅 价格 、 卧 室 数量 或 与 特定 邮政 编码 的 距离 来 对 物品 进行 排序 的 选项 。 事 
实 上 ， 这 种 方法 用 于 许多 商业 界面 。 

使 用 单个 属性 会 削弱 其 他 属性 的 重要 性 。 一 个 常用 的 方法 是 使 用 效用 函数 来 排列 匹配 
Win. S V= vv) 是 定义 匹配 产品 属性 的 值 的 向 量 。 因 此 ， 内 容 空间 的 维度 为 de 
效用 孙 数 可 以 被 定义 为 各 个 属性 的 效用 的 加 权 函 数 。 每 个 属性 具有 一 个 分 配给 它 的 权重 
wij， 以 及 一 个 由 函数 fj(v;)〉 定义 、 依 赖 于 匹配 的 属性 值 w; 的 贡献 值 。 然 后 ， 匹 配 物品 的 
效用 UV) 由 下 式 给 出 : 


d 
UV) = >) w. fi yj) (5-1) 


j=l 

TR, 需要 实例 化 w; MCO 的 值 才能 学 习 效用 函数 。 有 效 的 效用 函数 的 设计 通常 需要 
特定 领域 的 知识 ， 或 者 从 过 去 的 用 户 交 互 中 学 习 数 据 。 例 如 ， 当 是 数值 时 ， 可 以 假设 函 
数 f; (vw) Ey 中 是 线性 的 ， 然 后 通过 抽出 来 自 各 种 用 户 的 反馈 来 学 习 线 性 函数 和 wj 的 系 
数 。 通 常 ， 来 自 某 些 用 户 的 训练 数据 被 抽取 出 来 ， 这 些 用 户 被 赋予 对 一 些 样 本 物品 进行 排 
序 的 任务 。 然 后 使 用 这 些 排 序 结合 使 用 回归 模型 来 学 习 上 述 模 型 。 这 种 方法 与 联合 分 析 的 
方法 相关 955,531] 。 联 合 分 析 定 义 了 人 们 如 何 评估 构成 一 个 个 人 产品 或 服务 的 不 同属 性 的 正 
式 研究 的 统计 方法 。5. 6 节 包 含 一 些 通常 用 于 设计 效用 函数 的 方法 的 指示 。 


5.2.4 ”处理 不 可 接受 的 结果 或 空 集 


在 许多 情况 下 ， 一 条 特定 的 查询 可 能 返回 一 个 空 结果 集 。 在 其 他 情况 下 ， 返 回 的 结果 
集 可 能 不 足以 满足 用 户 的 要 求 。 在 这 种 情况 下 ， 用 户 有 两 个 选择 。 如 果 认 为 不 存在 修改 约 
束 的 直接 方式 ， 她 可 以 选择 从 入 口 点 重新 开始 。 或 者 ， 她 可 以 决定 改变 或 放宽 下 一 次 交互 
式 迭 代 的 约束 。 

用 户 如 何在 是 否 放宽 约束 上 做 出 一 个 有 意义 的 选择 ， 以 及 该 以 何 种 方式 去 做 ? 在 这 种 
情况 下 ， 向 用 户 提 供 放 宽 当 前 需求 的 指导 通常 是 有 帮助 的 。 这 些 建议 被 称 为 修补 建议 。 这 
个 想法 是 能 够 确定 最 小 的 不 一 致 约束 集 ， 并 将 它们 呈现 给 用 户 。 用 户 更 容易 接受 最 小 的 不 
一 致 约束 集 ， 并 找到 放宽 这 些 集 合 中 的 一 个 或 多 个 约束 的 方法 。 考 虑 购房 案例 ， 其 中 可 以 
发 现 用 户 已 经 规定 了 许多 要 求 ， 但 是 唯一 相互 矛盾 的 要 求 是 “Max-Price 二 100 000” 和 
“Min- Bedrooms 之 5”。 如 果 呈 现 给 用 户 这 对 约束 ， 她 可 以 明白 ， 要 么 她 需要 增加 她 愿意 支 
付 的 最 高 价格 ， 要 么 她 需要 选择 较 小 的 卧室 数量 。 找 到 不 一 致 约束 的 最 小 集合 的 一 种 朴素 
的 方法 是 对 用 户 需 求 的 所 有 组 合 执行 一 次 自 底 向 上 的 搜索 ， 并 确定 不 可 行 的 最 小 集合 。 在 
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许多 交互 界面 中 ， 用 户 可 能 仅 指定 了 少量 (例如 5 一 10 个 ) 的 要 求 ， 并 且 涉 及 这 些 属性 
(领域 知识 ) 的 约束 数 也 可 能 很 小 。 在 这 种 情况 下 ， 对 所 有 可 能 性 的 详尽 的 探索 并 非 是 一 
种 不 合理 的 做 法 。 由 于 其 本 质 ， 交 互 式 需求 的 规定 通常 会 导致 一 个 相对 较 少 数量 的 约束 规 
定 。 用 户 在 一 次 交互 查询 中 指定 100 个 不 同 的 要 求 是 不 常见 的 。 然 而 ， 在 某 些 情况 下 ， 当 
用 户 指定 的 要 求 数量 很 大 ， 并且 领域 知识 很 重要 时 ， 这 种 详尽 的 自 底 向 上 的 探索 可 能 不 是 
一 个 可 行 的 选择 。 也 已 提出 了 更 复杂 的 方法 ， 例 如 QUICKXPLAIN 和 MINRELAX, 可 
用 于 快速 发 现 小 的 冲突 集 和 最 小 的 松弛 088,273'274,289,419] 。 

这 些 方 法 大 多 使 用 类 似 的 原则 ， 确 定 违 规 的 约束 的 小 集合 ， 并 且 基 于 一 些 预定 义 的 标 
准 来 建议 最 适当 的 松弛 。 然 而 ， 在 实际 应 用 中 ， 有 时 难以 提出 约束 松弛 的 具体 标准 。 因 
此 ， 一 个 简单 的 替代 方案 是 向 用 户 呈 现 不 一 致 约束 的 小 集合 ， 这 些 集 合 通常 可 以 在 制定 修 
改 的 约束 时 向 用 户 提供 足够 的 直觉 。 


5.2.5 添加 约束 


在 某 些 情况 下 ， 返回 结 果 的 数量 可 能 非常 大 ， 用 户 可 能 需要 建议 添加 到 查询 中 的 可 能 
约束 。 这 时 可 以 使 用 各 种 方法 来 给 用 户 建议 约束 以 及 可 能 的 默认 值 。 经 常 通过 挖掘 历史 会 
话 日 志 来 选择 此 类 约束 的 属性 。 历 史 会 话 日 志 可 以 在 所 有 用 户 上 定义 ， 也 可 以 在 当前 特定 
的 用 户 上 定义 。 后 者 提供 更 具 个 性 化 的 结果 ,但 对 于 不 经 常 购买 的 物品 (例如 汽车 或 房 
屋 ) 来 说 是 不 可 获得 的 。 值 得 注意 的 是 ， 基 于 知识 的 系统 通常 被 设计 为 不 精确 地 使 用 这 种 
持久 的 和 历史 的 信息 ， 因 为 它们 需要 在 冷 启动 环境 中 工作 。 尽 管 如 此 ， 这 样 的 信息 通常 可 
以 在 改善 用 户 体验 的 时 候 变 得 非常 有 用 。 

如 何 使 用 历史 会 话 数据 呢 ? 其 思想 是 选择 受 欢 迎 的 约束 。 例 如 ， 如 果 一 位 用 户 已 经 对 
一 组 物品 属性 指定 了 约束 ， 则 其 他 包含 这 些 属性 中 的 一 个 或 多 个 的 会 话 就 会 被 识别 。 例 
如 ， 如 果 一 位 用 户 对 卧室 数量 和 价格 指定 了 约束 ， 则 包含 卧室 和 价格 约束 的 先前 的 会 话 会 
被 识别 。 特 别 地 ， 根 据 公共 属性 的 数量 可 以 识别 前 & 个 最 邻近 的 会 话 。 如 果 确 定 在 这 些 前 
上 个 会 话 中 最 受 欢迎 的 约束 是 浴室 的 数量 ， 则 该 属性 作 一 个 可 添加 的 附加 约束 的 候选 被 
建议 。 

在 许多 情况 下 ， 用 户 在 过 去 指定 约束 的 时 间 顺 序 是 可 用 的 。 在 这 种 情况 下 ， 通 过 将 约 
束 看 作 一 个 有 序 集 而 不 是 无 序 集 (33， 也 可 以 使 用 用 户 指 定 约束 的 顺序 。 实 现 此 目标 的 一 
个 简单 方法 是 确定 在 先前 会 话 中 遵循 当前 指定 约束 属性 集 的 最 频繁 属性 。 序 列 模式 挖掘 可 
用 于 确定 这 种 频繁 属性 。 文 献 [389，390] 中 的 工作 将 序列 学 习 问 题 模拟 为 马尔 可 夫 决 策 
过 程 (MDP)， 并 使 用 强化 学 习 技术 来 度量 各 种 选择 的 影响 。 可 以 基于 约束 在 数据 库 中 的 
选择 性 或 基于 在 过 去 会 话 中 用 户 的 平均 规定 来 建议 约束 。 


5.3 基于 案例 的 推荐 系统 


在 基于 案例 的 推荐 系统 中 ， 使 用 相似 性 度量 来 检索 与 指定 目标 REA) 相似 的 示 
例 。 例 如 ， 在 表 5-2 的 房地产 示例 中 ， 用 户 可 以 指定 期 望 位 置 、 卧 室 数量 和 一 个 期 望 价格 
来 规定 一 组 目标 属性 。 与 基于 约束 的 系统 不 同 ， 没 有 在 这 些 属性 上 强加 硬性 约束 (例如 最 
小 值 或 最 大 值 )。 还 可 以 设计 一 个 初始 查询 界面 ， 其 中 将 相关 物品 的 示例 作为 目标 。 但 是 ， 
在 初始 查询 界面 中 指定 所 需 的 属性 才 是 更 为 自然 的 。 一 个 相似 度 函 数 被 用 来 检索 与 用 户 指 
定 的 目标 最 相似 的 示例 。 例 如 ， 如 果 确 实 没有 找到 满足 用 户 指定 需求 的 房屋 ， 则 使 用 相似 
度 函 数 来 检索 和 排序 尽 可 能 类 似 于 用 户 查 询 的 物品 。 因 此 ， 与 基于 约束 的 推荐 系统 不 同 ， 
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在 基于 案例 的 推荐 系统 中 ， 检 索 结 果 为 空 集 并 不 是 一 个 问题 。 

在 如 何 改进 结果 方面 ， 基 于 约束 的 推荐 系统 和 基于 案例 的 推荐 系统 之 间 也 存在 重大 差 
异 。 基 于 约束 的 系统 使 用 需求 放宽 、 修 改 和 收 紧 来 改进 结果 。 最 早 的 基于 案例 的 系统 主张 
重复 修改 用 户 查 询 的 要 求 ， 直 到 找到 合适 的 解决 方案 。 因 此 , “批评 ”方法 被 提出 。 批 评 
方法 的 基本 思想 是 ， 用 户 可 以 选择 一 个 或 多 个 检索 结果 ， 并 指定 以 下 形式 的 进一步 查询 : 

“给 我 更 多 像 和 的 物品 ， 但 根据 指南 Z， 它 们 的 属性 了 要 不 同 。” 

关于 是 否 选择 一 个 或 多 个 属性 进行 修改 以 及 如 何 给 定 修改 属性 的 指南 有 很 多 方法 。 批 
评 的 主要 目标 是 支持 物品 空间 的 交互 式 浏览 ， 其 中 用 户 逐 渐 通过 已 检索 的 示例 来 了 解 更 多 
的 可 用 选项 。 物 品 空间 的 交互 式 浏览 具有 以 下 优点 : 它 是 迭代 查询 制定 过 程 中 的 一 个 用 户 
学 习 过 程 。 通 常 ， 通 过 重复 和 互动 的 探索 ， 用 户 可 能 会 达到 一 开始 就 无 法 达到 的 物品 。 

例如 ,考虑 表 5-2 的 购房 示例 。 用 户 可 能 最 开始 指定 了 期 望 的 价格 、 卧 室 的 数量 和 期 
望 的 位 置 。 或 者 ， 用 户 可 能 指定 了 一 个 目标 地 址 以 提供 一 个 她 可 能 感 兴趣 的 房屋 的 示例 。 
图 5-5 中 给 出 了 用 户 可 以 以 两 种 不 同方 式 指 定 目 标的 一 个 初始 界面 的 示例 。 界 面 的 项 部 说 
明了 目标 特征 的 规定 ， 而 界面 的 底部 则 说 明了 目标 地 址 的 规定 。 后 一 种 方法 对 于 用 户 在 技 
术 上 指定 隐藏 的 特征 存在 很 大 困难 的 领域 是 很 有 帮助 的 。 举 一 个 数码 相机 的 例子 ， 很 难为 
一 位 非 专业 摄影 师 确切 地 指定 所 有 的 技术 特征 。 因 此 ， 一 位 用 户 可 能 会 将 其 朋友 的 相机 指 
定 为 目标 案例 ， 而 不 是 指定 所 有 技术 特征 。 请 注意 ， 此 界面 是 假设 的 ， 仅 用 于 说 明 目 的 ， 
而 不 是 基于 实际 的 推荐 系统 。 


EXAMPLE OF HYPOTHETICAL CASE-BASED RECOMMEND 
INTERFACE FOR HOME BUYING (critique-example,com) 
[ ENTRY POINT ] 


| WOULD LIKE TO BUY A HOUSE SIMILAR TO ONE WITH THE FOLLOWING FEATURES: 


feat |_HOR ME STYLE p 
: coe 5 eg TE 





图 5-5 在 一 个 基于 案例 的 推荐 系统 中 的 一 个 初始 用 户 界 面 的 假设 示例 Critique- 


example. com) 


系统 使 用 目标 查询 并 结合 相似 度 或 效用 函数 来 检索 匹配 的 结果 。 最 终 ， 在 检索 结果 之 
后 ， 用 户 可 以 决定 喜欢 某所 房屋 ， 除 非 房屋 特征 中 包含 她 特别 不 喜欢 的 特征 例如， 殖民 
地 )。 在 这 一 点 上 ， 用 户 可 以 利用 这 个 例子 作为 一 个 锚 并 在 其 中 指定 她 想 要 的 不 同 的 特殊 
属性 。 请 注意 ， 用 户 能 够 做 出 第 二 组 批评 查询 规范 的 原因 是 ， 她 现在 有 一 个 具体 的 例子 来 
处 理 ， 而 在 这 之 前 她 并 没有 意识 到 。 批 评 界面 可 以 通过 多 种 不 同 的 方式 进行 定义 ， 这 将 在 
5. 3. 2 节 进 行 详细 讨论 。 然 后 ， 系 统 将 使 用 已 修改 的 目标 执行 一 个 新 的 查询 ， 并 使 用 一 组 
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减少 的 候选 项 ， 这 些 候选 项 是 先前 查询 的 结果 。 在 许多 情况 下 ， 效 果 是 简单 地 修剪 不 被 认 
为 是 相关 案例 的 搜索 结果 ， 而 不 是 提供 对 返回 结果 的 重新 排序 。 因 此 ， 与 基于 约束 的 系统 
不 同 ， 在 基于 案例 的 迭代 中 的 返回 响应 数 通 常 从 一 个 周期 减少 到 下 一 个 周期 。 然 而 ， 也 可 
以 设计 一 个 基于 案例 的 系统 ， 其 中 通过 将 每 个 查询 的 范围 扩展 到 整个 数据 库 ， 而 不 是 当前 
已 检索 到 的 候选 结果 集 ， 使 得 候选 结果 并 不 总 是 从 一 次 迭代 减少 到 下 一 次 迭代 。 这 种 设计 
的 选择 有 其 自己 的 权衡 考虑 。 例 如 ， 通 过 扩展 每 个 查询 的 范围 ， 用 户 将 能 够 导航 到 比 当前 
查询 距离 更 远 的 一 条 最 终结 果 。 男 一 方面 ， 结 果 也 可 能 在 后 来 的 迭代 中 变 得 越 来 越 无 关 紧 
要 。 出 于 本 章 的 目的 ,我 们 假设 返回 的 候选 结果 总 是 从 一 次 迭代 减少 到 下 一 次 迭代 。 

通过 反复 批评 ， 用 户 有 时 会 得 到 与 初始 查询 指定 的 完全 不 同 的 最 终结 果 。 上 毕竟 ， 用 户 
通常 很 难 在 一 开始 就 表达 出 他 们 所 期 望 的 所 有 特征 。 例 如 ， 在 查询 过 程 开 始 时 ， 用 户 可 能 
不 会 意识 到 期 望 的 房屋 特征 的 一 个 可 接受 的 价格 。 这 种 交互 方法 弥合 了 她 的 初步 理解 与 物 
品 可 用 性 之 间 的 差距 。 正 是 这 种 辅助 浏览 的 功能 使 得 基于 案例 的 方法 在 提高 用 户 意识 方面 
变 得 如 此 强大 。 用 户 有 时 也 可 能 通过 重复 地 减少 候选 集 而 得 到 一 组 空 的 候选 集 。 这 样 的 会 
话 可 以 被 视 为 无 结果 的 会 话 ， 并 且 在 这 种 情况 下 ， 用 户 必 须 在 入 口 点 从 头 重新 开始 。 请 注 
意 ， 这 与 基于 约束 的 系统 不 同 ， 在 后 者 中 用 户 还 可 以 选择 放宽 当前 的 要 求 集 来 增 大 结果 
集 。 产 生 这 种 差异 的 原因 是 基于 案例 的 系统 通常 将 候选 结果 的 数量 从 一 个 周期 减少 到 下 一 
个 周期 ， 而 基于 约束 的 系统 则 不 会 。 

为 了 使 基于 案例 的 推荐 系统 有 效 运行 ， 系 统 的 两 个 关键 方面 必须 进行 有 效 的 设计 : 

1) 相似 性 度量 : 相似 性 度量 的 有 效 设计 在 基于 案例 的 系统 中 非常 重要 ， 以 便 检索 相 
关 结 果 。 各 种 属性 的 重要 性 必须 适当 地 纳入 相似 度 函 数 中 ， 使 系统 有 效 地 工作 。 

2) 批评 方法 : 使 用 批评 方法 来 支持 物品 空间 的 交互 探索 。 各 种 不 同 的 批评 方法 可 用 
于 支持 不 同 的 探索 目标 。 

在 本 节 中 ， 我们 将 讨论 基于 案例 的 推荐 系统 设计 的 所 有 这 些 重要 的 方面 。 


5.3.1 相似 性 度量 


相似 性 度量 的 适当 设计 在 对 一 条 特定 查询 的 响应 中 检索 有 意义 的 物品 来 说 是 至 关 重 
要 。 最 早 的 FindMe 系统 D21 按 照 重要 程度 递减 排序 属性 ， 首 先 按照 最 重要 的 标准 进行 排 
序 ， 然 后 按 下 一 个 最 重要 的 标准 排序 ， 以 此 类 推 。 例 如 ， 在 Entree 餐厅 推荐 系统 中 ， 第 
一 次 排序 可 能 是 基于 菜 式 ， 第 二 次 基于 价格 ， 等 等 。 虽 然 这 种 方法 是 有 效 的 ， 但 不 一 定 对 
每 个 领域 都 有 效 。 一 般 来 说 ， 我 们 希望 开发 一 个 闭合 式 的 相似 度 函 数 ， 其 参数 可 以 由 领域 
专家 设置 ， 也 可 以 通过 一 个 学 习 过 程 进行 调整 。 

考虑 由 d 个 属性 来 描述 产品 的 应 用 。 我 们 想 确 定 在 4 个 属性 的 领域 的 子 集 S CBD 
1S|=s<d) 上 定义 的 两 个 部 分 属性 向 量 之 间 的 相似 度 值 。 令 XS (zl …zd) MI T= 
Gita) 表示 可 能 部 分 指定 的 两 个 4 维 向 量 ， 其 中 了 表示 目标 。 假 设 在 两 个 向 量 中 至 少 指 
定 属性 子 集 SCS{1…4d})。 请 注意 ,我 们 使 用 部 分 属性 向 量 ， 因 为 这 些 查 询 通 常 仅 在 用 户 指 
定 的 一 小 部 分 属性 上 定义 。 例 如 ， 在 上 述 房地产 示例 中 ， 用 户 可 能 仅 指 定 查 询 特 征 的 一 个 
小 的 集合 ， 例 如 卧室 或 浴室 的 数量 。 然 后 ， 两 组 向 量 之 间 的 相似 度 函 数 ACT,X) 定义 
WTF: 

>) wi + Sim(ti, zi) 
= i€S 


f(T,X) = (5-2) 


Wi 
i€S 
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AE, Simic) 表示 值 x; Ay 之 间 的 相似 度 。 权 重 w; 表示 第 ; 个 属性 的 权重 ， 它 规定 
了 该 属性 的 相对 重要 性 。 那 么 相似 度 函 数 Sim(t;,x;) 和 属性 重要 性 w; 是 如 何 被 学 习 
的 呢 ? 

首先 ， 我 们 将 讨论 如 何 确定 相似 度 函 数 Sim(t; ,x;)。 请 注意 ， 这 些 属性 可 能 是 定量 的 
或 分 类 的 ， 这 进一步 增加 了 这 种 系统 的 异 构 性 和 复杂 性 。 此 外 ， 属 性 可 以 根据 较 高 或 较 低 
的 值 是 对 称 的 或 不 对 称 的 58] 。 例 如 ， 考 虑 表 5- 2 的 购房 示例 中 的 价格 属性 。 如 果 返 回 的 
产品 的 价格 低 于 目标 值 ， 则 相 比 返回 的 产品 的 价格 比 目 标 值 更 大 的 情况 来 说 是 更 容易 接受 
的 。 对 于 不 同 的 属性 ， 不 对 称 的 精确 程度 可 能 不 同 。 例 如 ， 对 于 一 个 属性 ， 如 相机 的 分 辩 
率 ， 用 户 可 能 更 期 望 找到 更 大 的 分 辩 率 ， 但 这 种 倾向 可 能 不 如 考虑 价格 那么 强烈 。 其 他 属 
性 可 能 是 完全 对 称 的 ,在 这 种 情况 下 ， 用 户 想 要 属性 值 准 确 地 定 在 目标 值 所 上 。 一 个 对 称 
度量 的 示例 如 下 : 

(ti — =: | 
max; — min; 
XE, max; 和 min; 表示 属性 i 的 最 大 或 最 小 的 可 能 值 。 或者， 可 以 使 用 标准 差 s; (在 历史 
数据 上 ) 来 设置 相似 度 函 数 : 


Simli smi) = max(0,1— 





Simi szi) = 1— (5-3) 


lite — wz | 


(5-4) 


请 注意 ， 在 对 称 度量 的 情况 下 ， 相 似 度 完全 由 两 个 属性 之 间 的 差异 定义 。 在 一 个 非 对 称 属 
性 的 情况 下 ， 可 以 额外 添加 一 个 非 对 称 的 奖励 ， 这 取决 于 目标 属性 值 是 更 小 还 是 更 大 。 对 
于 属性 值 较 大 是 更 好 的 情况 ， 可 能 的 相似 度 函 数 的 示例 如 下 : 


[一 本 shat el Gry Ste) > alta 


max; — min; max; — min; 
非 对 称 奖励 
XE, a> EPAF EMER, Krt) 是 一 个 指示 函数 ， 如 果 z; 二 t;， 则 取 值 为 
1， 和 否则 为 0。 注意 ， 只 有 当 属 性 值 z 〈 例 如 ， 相 机 分 辩 率 ) KA NY, RAE 
效 。 对 于 属性 值 较 小 是 较 好 的 情况 (例如 价格 )， 奖 励 函 数 是 类 似 的 ， 只 是 该 情况 使 用 如 
下 指标 函数 进行 奖励 ， 


Sim(t;,z;) = 1— 


Sim(#i ,xi) = 1— 
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nasil ya + ai < ti) « alma 
非 对 称 奖 励 

ai 的 值 以 一 个 高 度 领域 特定 的 方式 选择 。 对 于 w 1 的 值 ,“ 相 似 度 ”实际 上 随 着 与 目标 的 
距离 增加 而 增 大 。 在 这 种 情况 下 ， 将 Simt; ,zi) 视 为 一 个 效用 函数 而 不 是 一 个 相似 度 函 
数 是 很 有 帮助 的 。 例 如 ， 在 价格 的 情况 下 ， 人 们 总 是 更 喜欢 较 低 的 价格 而 不 是 更 高 的 价 
i. 虽然 这 种 情况 下 目标 价格 可 能 会 定义 一 个 转折 点 。 当 ai 的 值 正好 为 1.0 时 ， 这 意味 着 
一 个 人 不 关心 在 其 中 一 个 方向 上 目标 值 的 进一步 改变 。 举 一 个 相机 分 辨 率 的 例子 ， 人 们 可 
能 不 会 关心 超出 某 一 点 后 的 分 辨 率 。 当 weE(0,1) 时 ， 这 意味 着 用 户 对 某 个 目标 的 喜好 程 
度 超越 了 其 他 目标 ,但 是 在 目标 的 两 侧 可 能 具有 非 对 称 偏好 。 例 如 ， 用 户 对 马力 的 偏好 可 
能 会 大 大 增加 到 目标 ， 并 且 由 于 燃料 消耗 更 大 ， 她 也 可 能 会 对 比 目 标 的 马力 更 大 的 马力 产 
生 轻 微 的 厌恶 。 这 些 例子 表明 ， 没 有 简单 的 方法 来 预先 定义 这 种 相似 性 度量 ， 领 域 专家 仍 
需要 做 很 多 的 工作 。 

对 称 和 非 对 称 相似 度 函数 的 例子 如 图 5- 6 所 示 。 范 围 为 [0，10]， 使 用 6 作为 目标 
值 。 对 称 相 似 度 函数 如 图 5- 6a 所 示 ， 其 中 相似 度 与 目标 距离 呈 线 性 关系 。 然 而 ， 在 上 面 


(5- 6) 
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讨论 的 功率 示例 中 ， 图 5-6 b 中 的 不 对 称 相似 度 函 数 可 能 更 为 合适 ， 其 中 ai = 0.5. MFI 
如 相机 分 辩 率 的 一 个 属性 ， 可 以 决定 在 用 户 的 目标 之 外 不 再 分 配 任何 效用 ， 因 此 相似 度 函 
数 可 能 平坦 地 通过 该 点 。 这 种 情况 如 图 5-6c 所 示 ， 其 中 a; 设置 为 1。 最 后 ， 在 价格 的 情况 
下 ， 较 小 的 值 被 奖励 ， 尽 管用 户 的 目标 价格 可 能 在 效用 函数 中 定义 一 个 转折 点 。 这 种 情况 
如 图 5- 6d 所 示 ， 其 中 a; 的 值 设置 为 1.3， 并 给 予 下 冲 目 标 奖 励 。 这 种 特殊 情况 值得 注意 ， 
因为 “相似 性 ”实际 上 会 随 与 目标 的 距离 增加 而 增加 ， 只 要 该 值 尽 可 能 小 。 在 这 种 情况 
下 ， 这 种 函数 的 效用 解释 比 相 似 度 解释 更 有 意义 。 在 这 种 解释 中 ， 目 标 属性 值 仅 表示 效用 
函数 的 关键 转折 点 。 





对 象 属性 值 
a) 对 称 的 (a=0 ) b) 不 对 称 的 ( aj=0.5 ) 
(被 绝对 距离 惩罚 ) (超出 规定 后 的 更 温和 的 惩罚 ) 





0 1 2 4 5 67 8 9 10 
对 象 属性 值 对 象 属性 值 
c) 对 称 的 (a=1.0) d) 不 对 称 的 ( a=1.3 ) 
(对 超出 规定 没有 惩罚 ) ( 越 少 越 好 ) 


图 5-6 不 同类 型 的 对 称 和 不 对 称 相似 度 的 示例 


对 于 分 类 数据 的 情况 ， 相 似 度 值 的 确定 往往 更 具 挑 战 性 。 通 常 构 建 领域 层次 结构 以 确 
定 相似 性 值 。 在 域 层 次 结构 的 上 下 文中 彼此 更 接近 的 两 个 对 象 可 能 被 认为 是 更 相似 的 。 这 
种 领域 层次 结构 有 时 可 以 直接 从 北美 行业 分 类 系统 NAICS) 等 来 源 直 接 获得 ， 而 在 其 他 
情况 下 ， 需 要 通过 人 工 来 直接 构建 。 例 如 ， 电 影 类 型 等 属性 可 以 分 级 分 类 ， 如 图 5-7 所 
示 。 请 注意 ， 相 关 的 类 型 往往 在 层次 结构 中 彼此 更 接近 。 例 如 ， 儿 童 电影 被 认为 与 适合 普 
通 观 众 观看 的 电影 截然 不 同 ， 它 们 在 分 类 的 根部 就 被 分 开 了 。 领 域 专家 可 以 使 用 此 层次 结 
构 来 编码 相似 性 。 在 某 些 情况 下 ， 也 可 以 使 用 学 习 方 法 来 帮助 进行 相似 度 计算 。 例 如 ， 可 
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以 从 用 户 那里 取得 关于 类 型 对 的 反馈 ， 并 可 以 使 用 学 习 方法 来 学 习 物 品 对 之 间 的 相似 
性 5 。 更 广泛 的 学 习 方 法 也 可 用 于 确定 相似 度 函 数 的 其 他 参数 ， 如 公式 (5-5) 和 公 
A (5-6) Ha 的 值 。 值 得 注意 的 是 ， 根 据 数据 域 ， 相 似 度 函数 的 具体 形式 可 能 与 公 
A (5-5) 和 公式 (5-6) 中 的 具体 形式 不 同 。 在 这 里 ， 领 域 专家 必须 投入 大 量 的 时 间 来 决 
定 如 何 对 具体 问题 进行 建 模 。 这 种 投入 是 基于 知识 的 推荐 系统 需求 的 特定 领域 工作 固有 的 
一 部 分 ， 也 从 此 来 获得 它们 的 名 称 。 


所 有 电影 


纪录 片 爱情 片 ” 喜剧 片 
图 5-7 电影 类 型 的 层次 分 类 示例 


设计 相似 度 函 数 的 第 二 个 问题 就 是 不 同属 性 之 间 的 相关 度 的 测定 。 第 i 个 属性 的 相关 
重要 性 用 公式 (5-2) 中 的 参数 wi 来 规定 。 对 于 领域 专家 来 说 ， 通 过 实验 和 经 验 来 硬 编码 
wi 的 值 是 可 能 的 。 别 的 可 能 是 使 用 用 户 的 反馈 来 了 解 w; 的 值 。 可 以 把 成 对 的 目标 对 象 呈现 
给 用 户 ， 而 且 用 户 可 能 会 被 要 求 给 这 些 目标 对 象 的 相似 度 进行 评分 。 可 以 使 用 这 些 反 馈 结 
合 一 个 线性 回归 模型 来 确定 ww; 的 值 。 有 关 线 性 回归 模型 的 细节 讨论 可 参考 第 4 章 4.4.5 
节 , 而 且 文 献 (18) 讨论 了 这 些 模 型 在 相似 度 函 数学 习 上 的 应 用 。 一些 其 他 结 
果 [97,163,563,627] 讨 论 了 在 推荐 系统 的 特定 上 下 文中 用 户 反 馈 的 学 习 方 法 。 很 多 这 样 的 方法 ， 
比如 文献 [627] 中 提 到 的 那些 ， 展 示 了 如 何 使 用 用 户 反 馈 来 获得 特征 的 权重 。 文 献 
[563] 的 工作 得 出 用 户 在 返回 实例 中 的 相关 排序 的 反馈 ， 而 且 使 用 这 些 反馈 来 学 习 相 关 的 
特征 加 权 。 通 常 ， 由 用 户 指定 相关 排名 ， 而 不 是 给 成 对 的 对 象 去 指定 明确 的 相似 度 ， 要 更 
加 简单 。 

5. 3. 1. 1 在 相似 度 计算 中 合并 多 样 性 

像 基 于 案例 的 系统 使 用 物品 的 属性 来 检索 相似 物品 那样 ， 它 们 和 基于 内 容 的 系统 在 返 
回 多 种 结果 上 面临 很 多 相同 的 挑战 。 在 多 数 情况 下 ， 通 过 基于 案例 的 系统 返回 的 结果 都 是 
很 相似 的 。 缺 乏 多 样 性 带 来 的 问题 就 是 如 果 一 个 用 户 不 喜欢 排名 靠 前 的 结果 ， 那 么 她 将 总 
是 不 喜欢 其 他 类 似 结 果 。 比 如 ， 在 一 个 购房 应 用 中 ， 推 荐 系统 可 能 返回 在 同样 管理 的 相同 
建筑 群 下 的 成 套 的 公寓 单元 。 很 显然 ， 这 种 情况 减少 了 排名 靠 前 的 结果 中 对 于 用 户 来 说 那 
些 真正 有 用 的 选择 。 

考虑 这 样 一 种 情况 ,我 们 希望 检索 出 和 某 个 例子 匹配 的 排名 最 前 的 项 结果 。 一 种 可 
能 就 是 检索 出 排名 最 前 的 68， 项 结果 (对 于 0 六 1) ， 然 后 从 结果 列表 中 随机 地 选择 上 个 物 
品 。 这 种 策略 也 被 称 为 是 有 界 随 机 选择 策略 ， 不 过 在 实际 中 ， 这 种 策略 的 表现 并 不 太 好 。 

一 个 更 加 有 效 的 方法 是 有 界 贪 禁 选 择 策略 [55%] 。 在 这 种 策略 中 ， 我 们 首先 选择 出 和 目 
标 相 似 的 排名 最 前 的 58. 种 情况 ,然后 递增 地 从 这 5，k 种 情况 中 创建 一 个 多 样 的 包含 
种 实例 的 集合 。 因 此 ， 我 们 是 从 一 个 空 集合 R 开始 ， 然 后 通过 递增 地 从 基础 集 5， 上 有 种 情 
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况 中 添加 实例 来 创建 它 。 第 一 步 就 是 建立 一 个 结合 相似 性 和 多 样 性 的 质量 指标 。 不 失 一 般 
性 地 ， 相 似 度 函数 X.Y) 总 是 取 (0，1) 之 间 的 某 个 值 。 进 而 ， 多 样 性 函数 D(X,Y) 
可 以 被 看 作 是 下 和 YY 之 间 的 距离 : 

D(X,Y) = 1—f(X,Y) (5-7) 
然后 ， 介 于 候选 者 X 之 间 的 平均 多 样 性 和 当前 被 选择 的 实例 的 集合 R BE LATEX AIR 中 
的 实例 的 平均 多 样 性 : 


> DX, Y) 
av, Y = YER = 
D*8(X,R) = eT (5-8) 
接着 ， 对 于 目标 函数 工 ， 用 如 下 公式 来 计算 总 体质 量 Q(T,X,R): 
Q(T, X, R) = f(T,X) + DXR) (5-9) 


递增 地 把 有 最 大 质量 值 的 XX 的 实例 添加 到 集合 R 中 ， 直 到 集合 R 的 大 小 等 于 & 为 止 。 
把 这 个 结果 集 呈 现 给 用 户 。 对 于 其 他 的 在 文献 中 使 用 过 的 增强 多 样 性 的 具体 技术 请 参考 
5.6 We 


5.3.2 批评 方法 


批评 的 动机 是 基于 这 样 的 一 个 事实 ， 那 就 是 在 最 初 的 查询 中 用 户 往 往 不 能 够 准确 地 声 
明 他 们 的 需求 。 在 某 些 复杂 的 领域 ， 他 们 甚至 没有 发 现 以 一 种 语义 上 有 意义 的 方式 把 他 们 
的 需要 翻译 成 产品 领域 的 属性 值 是 非常 困难 的 。 只 有 在 看 过 一 个 查询 的 结果 之 后 ， 这 个 用 
户 可 能 才 意 识 到 她 已 经 有 点 难以 表达 她 的 查询 。 批 评 就 是 被 设计 用 来 在 这 个 事实 之 后 提供 
给 用 户 这 样 的 能 力 。 

在 结果 已 经 被 呈现 给 用 户 之 后 ， 在 使 用 批评 的 过 程 中 反馈 是 典型 可 行 的 。 在 多 数 情况 
下 ， 尽 管 对 于 某 个 用 户 来 说 ， 批 评 包 含 上 项 的 检索 列表 中 的 任意 的 物品 在 技术 上 都 是 可 行 
的 ， 但 是 设计 界面 是 为 了 评论 大 部 分 相似 的 匹配 物品 。 在 批评 时 ， 用 户 具体 说 明 请 求 需要 
在 某 个 或 者 某 些 他 们 可 能 喜欢 的 有 关 物 品 的 具体 属性 上 发 生 改 变 。 例 如 ， 在 图 5-2 中 的 购 
房 应 用 中 ， 用 户 可 能 喜欢 某 个 特别 的 房子 ,但 是 她 可 能 想 要 一 个 不 同位 置 的 房子 或 者 多 一 
个 卧室 的 房子 。 因 此 ， 用 户 可 能 具体 说 明 需 要 改变 的 特征 。 这 个 用 户 可 能 具体 说 明 一 个 很 
直接 的 评论 (比如 “更 便宜 ”) 或 者 一 个 更 换 评 论 〈 比 如 “不 同 的 颜色 ”。 在 这 些 情况 下 ， 
那些 不 满足 特定 用 户 评论 的 例子 被 排除 掉 ， 然 后 那些 和 用 户 所 喜欢 的 物品 类 似 的 但 是 迎 
合 评论 当前 趋势 ) 的 例子 被 检索 。 当 多 种 评论 都 指定 在 顺序 推荐 循环 中 时 ， 偏 爱 于 那些 最 
新 的 评论 。 

在 一 个 给 定时 刻 ， 用 户 可 能 具体 说 明 一 个 单一 的 特征 或 某 些 特 征 的 结合 体 。 这 种 程度 
下 ， 有 三 种 不 同 的 批评 类 型 分 别 对 应 于 简单 批评 、 复 合 批评 和 动态 批评 。 我 们 将 在 接 下 来 
的 章节 中 分 别 来 讨论 这 三 种 不 同类 型 。 

5.3.2.1 简单 批评 

在 一 个 简单 批评 中 ， 对 于 推荐 中 的 某 个 物品 的 某 一 个 特征 ， 用 户 具体 说 明 一 个 单独 的 
改变 。 在 图 5-8 中 ,我们 已 经 使 用 了 早期 的 基于 案例 的 情景 Ccritique-example. com) 来 展 
示 一 个 简单 批评 界面 的 例子 。 注 意 ， 这 个 用 户 只 能 具体 说 明 在 这 个 界面 中 的 推荐 房子 的 特 
征 之 一 。 通 常 ， 在 很 多 系统 中 ， 比 如 FindMe 系统 中 ， 使 用 的 是 一 个 更 加 像 交 谈 的 界面 ， 
其 中 用 户 具体 说 明 是 否 增加 或 者 减少 某 个 具体 的 属性 值 而 不 是 明确 地 修改 某 个 目标 属性 的 
值 。 这 称 为 定向 批评 。 在 这 种 情况 下 ， 候 选 列表 仅仅 是 修剪 掉 那 些 与 用 户 强 调 的 偏好 的 批 
评 属性 不 符 的 物品 。 这 种 方法 的 优势 在 于 用 户 可 以 强调 他 们 的 偏好 ， 而 不 必 以 一 种 明确 的 
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方式 具体 说 明 或 改变 属性 值 对 产品 空间 进行 指导 。 在 那些 用 户 可 能 不 知道 属性 的 确切 值 的 
领域 〈 比 如 发 动机 的 马力 )， 这 种 方法 特别 重要 。 定 向 评论 的 另外 一 个 优势 就 是 它 有 一 个 
传统 的 简单 风格 ， 这 种 风格 可 能 直观 上 更 加 吸引 用 户 。 在 那些 用 户 一 点 也 不 能 找到 当前 的 
使 用 过 的 检索 结果 集合 的 情况 下 ， 她 可 能 会 回 到 最 初 的 观点 。 这 是 在 批评 过 程 中 的 一 种 无 
结果 的 循环 。 


EXAMPLE OF HYPOTHETICAL CASE-BASED RECOMMENDATION d JPN, | 
INTERFACE FOR HOME BUYING (critique-example.com) 72 
[ SIMPLE CRITIQUING INTERFACE ] 


YOU SPECIFIED THE FOLLOWING TARGET; 
812 SCENIC DRIVE, MOHEGAN LAKE, NY 
YOUR TOP RECOMMENDATION IS: 
742 SCENIC DRIVE, MOHEGAN LAKE, NY 
WE RECOMMEND THIS HOUSE BECAUSE: IT HAS SIMILAR BEDROOMS, BATHROOMS, 
LOCALITY, PRICE RANGE, AND HOME STYLE AS YOUR TARGET 


1 WOULD LIKE TO BUY A HOUSE SIMILAR TO THE TOP RECOMMENDATION 
BUT WITH ONE OF THE FOLLOWING CHANGES: 


ce j 
| 





a) 通过 直接 修改 特征 值 的 简单 批评 
EXAMPLE OF HYPOTHETICAL CASE-BASED RECOMMENDATION d JPN, 
INTERFACE FOR HOME BUYING (critique-example.com) “a 
[ SIMPLE CRITIQUING INTERFACE ] 
YOU SPECIFIED THE FOLLOWING TARGET: 
812 SCENIC DRIVE, MOHEGAN LAKE, NY 


YOUR TOP RECOMMENDATION IS: 
742 SCENIC DRIVE, MOHEGAN LAKE, NY 


WE RECOMMEND THIS HOUSE BECAUSE: IT HAS SIMILAR BEDROOMS, BATHROOMS, 





LOCALITY, PRICE RANGE, AND HOME STYLE AS YOUR TARGET 


| WOULD LIKE TO BUY A HOUSE SIMILAR TO THE TOP RECOMMENDATION 
BUT WITH ONE OF THE FOLLOWING CHANGES: 


NUMBER OFBR (GHB) SD NUMBER OF BATH (a) GE 
a S | 
l Bione RELATED STYLES | 





b) 会 话 风格 的 定向 批评 
图 5-8 基于 案例 的 推荐 系统 中 简单 批评 的 用 户 界面 的 假设 示例 Ccritique- example. com) 


简单 批评 方法 的 主要 问题 就 是 它 难以 导航 。 如 果 推 荐 的 物品 包含 太 多 需要 改变 的 属 
HE, 那么 就 会 产生 一 个 特别 长 的 连续 链 。 而 且 ， 当 其 中 的 一 个 属性 改变 的 时 候 ， 推 荐 系统 
可 能 需要 自动 改变 一 些 其 他 取决 于 物品 的 可 用 性 的 属性 值 。 大 多 数 情况 下 ， 在 一 个 给 定 的 
循环 中 ， 保 持 其 他 的 属性 值 在 一 个 明确 的 常数 值 是 不 可 能 的 。 因 此 ， 当 用 户 已 经 把 一 些 属 
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性 值 修 改 成 他 们 的 期 望 值 的 时 候 ， 他 们 可 能 发 现 其 他 的 属性 值 已 经 变 得 不 能 被 接受 。 推 荐 
循环 的 值 越 大 ， 用 户 对 于 在 别 的 早期 只 代 中 可 接受 的 属性 值 的 变化 的 控制 将 会 越 少 。 这 种 
问题 往往 是 因为 用 户 不 了 解 问题 领域 中 的 自然 权衡 。 比 如 ， 某 个 用 户 可 能 不 理解 马力 和 燃 
料 效 率 之 间 的 权衡 ， 从 而 尝试 去 寻找 一 个 大 马力 上 且 有 着 50 英里 (1 REAGI 千 米 ) 高 
能 源 效率 的 汽车 025 。 有 关 这 种 在 推荐 循环 中 徒劳 问题 的 细节 讨论 请 见 文献 [423]。 很 多 
批评 界面 的 主要 问题 就 是 推荐 物品 的 下 一 个 集合 是 基于 最 近 被 批评 的 物品 ， 而 且 没 有 一 种 
方式 能 够 导航 回 早期 的 物品 。 因 此 ， 简 单 批评 的 长 循环 有 时 候 可 能 会 导致 没有 结果 。 
5.3.2.2 复合 批评 

复合 批评 的 发 展 是 为 了 减少 推荐 循环 的 长 度 5 和 5。 在 这 种 情况 下 ， 用 户 能 具体 说 明 如 
何 修改 一 个 单一 循环 中 的 多 种 特征 。 例 如 ， 一 个 汽车 导航 系统 [2 允许 用 户 去 具体 说 明 多 
种 隐藏 在 用 户 能 够 理解 的 (比如 优等 的 、 宽 数 的 、 便 宜 的 、 漂 亮 的 ) 非 正 式 描述 信息 之 后 
的 修改 。 例 如 ， 领 域 专 家 可 能 认为 “优等 的 ”暗示 某 个 有 着 更 高 价值 和 精致 的 内 部 构造 的 
型 号 。 当 然 ， 用户 也 能 够 直接 去 修改 需要 的 产品 特征 ， 但 是 这 会 增加 其 负担 。 常 见 的 批评 
是 一 个 用 户 可 能 需要 一 个 “优等 的 ”汽车 ， 但 是 就 产品 特征 而 言 ， 如 汽车 的 内 部 构造 ， 他 
们 可 能 没 法 简单 具体 地 去 表述 。 男 一 方面 ,一 个 类 似 “ 优 等 的 ”判定 是 更 直观 的 ， 而 且 就 
产品 特征 而 言 ， 它 能 够 被 一 个 领域 专家 编码 。 之 所 以 设计 这 种 交互 过 程 ， 就 是 为 了 帮助 他 
们 以 一 种 直观 的 方式 来 了 解 复杂 的 产品 空间 。 

ER 5-2 中 的 购房 例子 中 ， 用 户 可 能 具体 说 明 一 个 不 同 的 位 置 或 者 价格 改变 。 图 5- 9a 
阐释 了 一 个 有 关 购 房 例子 中 复合 批评 的 例子 。 为 了 使 方法 更 加 常规 ， 一 个 类 似 于 图 5-9b 
的 界面 将 会 对 一 个 单一 选择 的 多 种 改变 自动 编码 。 例 如 ， 如 果 用 户 选择 的 是 “宽敞 的 ”， 
那 就 暗示 着 卧室 数量 和 浴室 数量 都 可 能 需要 增加 。 对 于 第 二 种 类 型 的 界面 ， 领 域 专家 必须 
在 设计 相关 界面 和 多 种 特征 改变 对 用 户 选择 影响 上 付出 更 多 努力 。 编 码 过 程 是 静态 的 而 且 
是 一 开始 就 做 好 的 。 

复合 批评 的 主要 优势 在 于 为 了 发 出 一 个 新 的 查询 或 者 用 之 前 的 查询 来 修剪 查询 结果 ， 
用 户 可 以 改变 目标 推荐 的 多 种 特征 。 因 此 ， 这 种 方法 允许 在 产品 特征 空间 上 大 的 跳跃 ， 而 
且 用 户 经 常 可 以 对 评论 过 程 有 更 好 的 掌控 。 这 对 于 减少 推荐 循环 的 数量 和 作出 更 有 效率 的 
探索 过 程 都 是 有 帮助 的 。 但是， 在 帮助 用 户 了 解 产 品 空间 上 ， 尚 不 清楚 复合 批评 是 否 总 是 
优 于 简单 批评 ; 短 的 批评 循环 也 能 减少 用 户 了 解 产品 空间 的 特征 之 间 不 同 的 权衡 和 相关 性 
的 可 能 性 。 另 一 方面 ， 某 个 用 户 有 时 也 可 能 通过 简单 批评 的 缓慢 和 艰苦 的 过 程 来 更 多 地 了 
解 产品 空间 。 
5.3.2.3 动态 批评 

尽管 复合 批评 允许 在 导航 空间 上 有 大 的 跳跃 ,但 是 就 其 不 依赖 于 检索 结果 这 个 意义 而 
， 其 缺点 在 于 呈现 给 读者 的 反馈 是 静态 的 。 例 如 ， 如 果 用 户 在 浏览 汽车 ， 而 且 她 已 经 浏 
览 了 很 多 大 马力 的 昂贵 汽车 ， 那么 增加 马力 和 价格 的 选项 还 是 会 在 推荐 界面 中 。 很 显然 ， 
具体 说 明 这 些 选项 将 会 导致 一 个 无 意义 的 结果 。 这 是 因为 用 户 对 于 复杂 的 产品 空间 的 固有 
权衡 的 了 解 往往 不 足 。 

在 动态 批评 中 ， 目 标 就 是 在 检索 结果 中 使 用 数据 挖掘 来 决定 探索 过 程 中 最 有 成 效 的 路 
径 然 后 把 它们 推荐 给 用 户 。 因 此 ， 动 态 批 评 在 定义 上 是 复合 批评 ， 因 为 它们 大 部 分 总 是 代 
表 呈 现 给 用 户 的 变化 的 结合 体 。 主 要 的 区 别 在 于 基于 当前 的 检索 结果 ， 呈 现 最 相关 的 可 能 
性 的 那 部 分 子 集 。 因 此 ， 动 态 批评 的 设计 是 为 了 在 搜索 过 程 中 给 用 户 提 供 更 好 的 指导 。 

动态 批评 的 一 个 重要 的 方面 就 是 发 现 产 品 特征 变化 的 频繁 结合 。 为 了 决定 在 检索 结果 
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EXAMPLE OF HYPOTHETICAL CASE-BASED RECOMMEND 
INTERFACE FOR HOME BUYING (critique-example.com) 


YOUR TOP RECOMMENDATION IS: 
742 SCENIC DRIVE, MOHEGAN LAKE, NY 
WE RECOMMEND THIS HOUSE BECAUSE: IT HAS SIMILAR BEDROOMS, BATHROOMS, 
LOCALITY, PRICE RANGE, AND HOME STYLE AS YOUR TARGET 


1 WOULD LIKE TO BUY A HOUSE SIMILAR TO THE TOP RECOMMENDATION 
BUT WITH ONE OR MORE OF THE FOLLOWING CHANGES: 


INTERFACE FOR HOME BUYING (critique-example.com) 
[ COMPOUND CRITIQUING INTERFACE | 


YOUR TOP RECOMMENDATION IS: 
742 SCENIC DRIVE, MOHEGAN LAKE, NY 


WE RECOMMEND THIS HOUSE BECAUSE: IT HAS SIMILAR BEDROOMS, BATHROOMS, 
LOCALITY, PRICE RANGE, AND HOME STYLE AS YOUR TARGET 


| WOULD LIKE TO BUY A HOUSE SIMILAR TO THE TOP RECOMMENDATION 
WITH THE FOLLOWING GENERAL GUIDANCE (THE SYSTEM WILL 





b) 利用 域 知识 减少 用 户 指定 多 个 特征 值 的 负担 
图 5-9 在 基于 案例 的 推荐 系统 中 复合 批评 的 用 户 界 面 的 假设 示例 (critique- example. com) 


中 的 频繁 共同 发 生 的 产品 特征 的 模式 ， 支 持 度 的 概念 改编 自 频 繁 模式 挖掘 [23] 。 检 索 结 果 
中 满足 模式 的 那 部 分 被 定 为 模式 的 支持 。 可 查看 第 3 章 3. 3. 1 节 关 于 支持 度 的 正式 定义 。 
因此 ， 这 种 方法 确定 了 特定 于 某 个 预先 定义 的 最 小 支持 度 的 所 有 改变 的 模式 。 例 如 ， 在 表 
5-2 的 购房 应 用 中 ， 系 统 可 能 以 支持 度 的 顺序 来 决定 接 下 来 的 动态 批评 。 

更 多 卧室 、 更 高 价格 : 支持 度 二 25% 

更 多 卧室 、 更 多 浴室 、 更 高 价格 : 支持 度 二 20% 

更 少 卧室 、 更 低 价 格 : 支持 度 = 二 20% 

更 多 卧室 、 位 置 王 扬 克 斯 : LIE =l 

注意 ， 基 于 最 小 支持 度 ， 相 冲突 的 选项 ， 比 如 “更 多 的 卧室 、 更 低 的 价格 ”被 包含 机 
会 更 低 ， 因 为 它们 可 能 被 淘汰 。 但 是 ， 即 使 是 低 支持 度 的 模式 也 不 一 定 是 无 趣 的 。 实 际 
上 ， 一 且 决 定 了 所 有 的 满足 最 小 支持 度 阅 值 的 模式 ， 那 么 很 多 推荐 系统 就 会 用 支持 度 升 序 
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的 方式 来 对 用 户 批评 排序 。 这 个 方法 的 逻辑 就 是 支持 度 低 的 批评 往往 也 是 不 显著 的 模式 ， 
能 够 用 这 些 模式 来 排除 推荐 列表 中 的 大 量 物品 。 图 5-10 阐述 了 关于 动态 批评 界面 的 一 个 
例子 ， 基 于 早期 的 房屋 购买 系统 (critique-example. com) 。 注 意 在 界面 中 ， 每 个 呈现 出 的 
选项 都 配 有 一 个 数值 量 。 这 个 数值 对 应 于 呈现 选项 的 原始 支持 度 。 


YOU SPECIFIED THE FOLLOWING TARGET: 
812 SCENIC DRIVE, MOHEGAN LAKE, NY 
YOUR TOP RECOMMENDATION IS: 
742 SCENIC DRIVE, MOHEGAN LAKE, NY 


WE RECOMMEND THIS HOUSE BECAUSE: IT HAS SIMILAR BEDROOMS, BATHROOMS, 


LOCALITY, PRICE RANGE, AND HOME STYLE AS YOUR TARGET 


| WOULD LIKE TO BUY A HOUSE SIMILAR TO THE TOP RECOMMENDATION 
BUT WITH ONE OF THE FOLLOWING CHANGE COMBINATIONS : 


Smai.en pice (12) AD 
SMALLER PRICE (12) 
smar Pace (13) ia 
SMALLER PRICE (13) 
MORE BEDROOMS IN 
neansy iocaunv (15) Sa 


图 5-10 基于 案例 的 推荐 系统 中 动态 批评 的 用 户 界 面 的 假设 示例 Ccritique-example. com) 





文献 [491] 讨论 了 一 个 使 用 频繁 模式 和 关联 规则 挖掘 的 动态 批评 方法 的 一 个 现实 生 
活 中 的 例子 ， 即 Qwikshop 系统 。 一 个 关于 动态 批评 系统 的 重要 观察 是 当 查看 一 个 预 循 环 
的 根据 的 时 候 ， 它 们 增加 了 读者 的 认 知 负荷 ， 但 是 它们 减少 了 整个 过 程 中 的 进程 负荷 ， 因 
为 它们 能 够 更 快 地 到 达 可 以 接受 的 推荐 [35 。 这 也 是 为 什么 在 动态 批评 系统 中 ， 批 评 循环 
解释 过 程 的 有 效 设计 很 重要 。 


5.3.3 批评 的 解释 


给 出 批评 过 程 的 解释 是 有 用 的 ， 因 为 这 能 够 帮助 用 户 更 好 地 理解 信息 空间 。 有 几 种 用 
来 提高 批评 质量 的 解释 方式 ， 以 下 是 一 些 例子 : 

D 在 简单 批评 中 ， 对 于 用 户 来 说 以 一 种 无 结果 的 方式 进行 导航 很 常见 ， 因 为 其 不 了 
解 物品 空间 中 国有 的 权衡 。 例 如 ， 一 个 用 户 可 能 成 功 地 增加 了 马力 ， 增 加 了 每 加 仓 的 里 程 
数 ， 然 后 尽力 去 减少 预期 的 价格 。 这 时 系统 可 能 无 法 给 用 户 展示 一 个 可 以 接受 的 结果 ， 而 
且 用 户 也 将 必须 重新 开始 导航 过 程 。 在 会 话 的 最 后 ， 系 统 需要 自动 确定 无 效 对 话 的 内 在 权 
衡 。 使 用 相关 性 和 同 现 统计 来 决定 这 样 的 权衡 往往 是 可 行 的 。 然 后 用 户 可 以 获得 他 们 之 前 
输入 的 批评 上 冲突 的 见解 。 这 种 方法 被 用 在 FindMe 系统 中 [512 。 

2) 文献 [492] 已 经 展示 了 在 一 段 会 话 内 解释 是 如 何 与 动态 的 复合 批评 相 结合 的 。 例 
如 ，Qwikshop 系统 提供 了 满足 每 个 复合 批评 的 那 部 分 实例 的 信息 。 这 就 可 以 在 用 户 做 出 
批评 选择 之 前 ， 给 用 户 提供 一 个 有 关 其 将 要 探索 的 空间 大 小 的 直观 展示 。 在 这 段 会 话 中 给 
用 户 提供 更 好 的 解释 可 以 提高 获取 有 意义 结果 的 可 能 性 。 

基于 批评 系统 的 主要 风险 就 是 ， 用 户 以 无 目的 的 方式 漫游 知识 空间 ， 从 而 无 法 成 功 找 
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到 他 们 想 要 寻找 的 内 容 。 通 过 给 界面 增加 解释 可 以 减少 这 种 风险 发 生 的 可 能 性 。 


5.4 基于 知识 的 系统 的 持久 个 性 化 


尽管 基于 知识 的 系统 ， 如 基于 约束 的 系统 ， 人 允许 用 户 偏好 、 特 征 以 及 人 口 统计 学 属性 
的 详细 说 明 ， 但 是 输入 的 信息 是 典型 地 特定 于 某 次 会 话 的 ， 而 且 在 多 次 会 话 期 间 无 法 圭 
久 。 大 多 数 这 样 的 系统 中 ， 唯 一 持久 的 数据 是 各 种 特定 于 系统 的 数据 库 形式 的 领域 知识 ， 
例如 约束 或 相似 性 度量 。 基 于 知识 的 系统 中 数据 持久 性 的 缺乏 问题 是 一 个 自然 的 结果 ， 这 
是 因为 与 基于 内 容 的 系统 和 协同 系统 相 比 ， 基 于 知识 的 系统 只 通过 有 限 的 方式 使 用 历史 数 
据 。 这 同时 也 是 基于 知识 系统 的 一 个 优点 ， 因 为 相对 于 其 他 的 只 依赖 历史 数据 的 系统 来 
说 ， 这 些 系统 的 冷 启动 问题 相对 没有 那么 严重 。 实 际 上 ， 基 于 知识 的 系统 往往 是 为 了 给 更 
昂贵 和 偶尔 购买 的 物品 设计 的 ， 其 是 高 度量 身 定制 的 。 这 种 情况 下 ， 应 该 谨慎 使 用 历史 数 
据 ， 即 使 数据 是 可 用 的 。 尽 管 如 此 ， 已 经 有 一 部 分 的 基于 知识 的 系统 被 设计 用 来 使 用 个 性 
化 的 持久 方式 。 

用 户 在 不 同 阶段 的 表现 可 以 被 用 来 建立 一 个 有 关 用 户 认 为 他 们 喜欢 什么 和 不 喜欢 什么 
的 持久 画像 。 例 如 ，CASPER 是 一 个 在 线 招聘 系统 [585] ， 用 户 在 这 个 系统 中 检索 工作 的 行 
为 〈 如 保存 广告 、 用 邮件 转发 给 自己 或 者 申请 某 些 职位 ) 都 会 被 保存 起 来 以 便 将 来 引用 。 
而 且 ， 当 广告 不 相关 时 ， 人 允许 用 户 为 广告 给 出 消极 评分 。 注 意 这 个 过 程 会 生成 一 个 隐 式 反 
馈 文 件 。 此 推荐 过 程 分 为 两 步 。 第 一 步 ， 基 于 用 户 需 要 返回 检索 结果 ， 类 似 于 其 他 基于 知 
识 的 推荐 。 第 二 步 ， 基 于 与 用 户 喜 欢 的 物品 的 相似 度 ， 将 结果 进行 排名 。 还 可 以 识别 具有 
相似 画像 的 其 他 用 户 ， 并 在 学 习 过 程 中 将 他 们 的 会 话 信息 用 作协 作 信 息 。 

当 用 户 交互 信息 可 用 的 时 候 ， 基 于 知识 的 系统 中 的 很 多 步骤 都 是 可 以 个 性 化 的 。 这 些 
步骤 如 下 : 

1) 在 不 同属 性 值 上 的 效用 /相似 度 函 数 的 学 习 可 以 对 基于 约束 的 推荐 〈 排 序 阶段 ) 和 
基于 案例 的 推荐 〈 检 索 阶 段 ) 进行 个 性 化 。 当 对 于 一 个 特定 用 户 的 过 去 反馈 是 可 用 的 时 
候 ， 对 于 效用 函数 中 的 用 户 的 不 同属 性 之 间 的 相关 重要 性 的 学 习 是 可 行 的 。 

2) 在 用 户 的 很 多 会 话 都 是 可 用 的 情况 下 ， 对 一 个 用 户 的 限制 建议 的 过 程 (参考 5. 2.5 
节 ) 可 以 被 个 性 化 。 

3) 如 果 从 某 个 用 户 处 获得 了 足够 的 数据 以 确定 相关 模式 ， 则 该 用 户 可 用 使 用 个 性 化 
的 动态 批评 。 和 大 部 分 常见 的 动态 批评 的 唯一 区 别 是 利用 用 户 专 有 数据 而 非 所 有 数据 来 决 
定 频繁 模式 。 在 挖掘 过 程 中 把 具有 相似 会 话 的 用 户 会 话 打 包 来 增加 推荐 的 协同 能 力也 是 可 
行 的 。 

尽管 有 很 多 途径 ， 通 过 这 些 途 径 可 以 把 个 性 化 过 程 融入 基于 知识 的 框架 中 ， 但 是 最 大 
的 挑战 通常 是 对 于 某 个 特定 用 户 没 有 充分 可 用 的 会 话 数据 。 基 于 知识 的 系统 是 为 复杂 的 领 
域 空间 中 的 高 度 定制 物品 而 设计 的 ， 因 而 基于 知识 的 领域 中 个 性 化 程度 非常 有 限 。 


5.5 小 结 


基于 知识 的 推荐 系统 通常 是 为 了 给 那些 高 度 定制 的 领域 而 设计 的 ， 而 且 评 分 信息 难以 
直接 反映 更 强 的 偏好 。 在 这 种 情况 下 ， 通 过 明确 需求 和 交互 来 使 用 户 对 推荐 过 程 有 更 强 的 
掌控 权 是 明智 的 。 基 于 知识 的 推荐 系统 分 为 基于 约束 的 系统 和 基于 案例 的 系统 。 在 基于 约 
束 的 系统 中 ， 用 户 具 体 说 明 他 们 的 需求 ， 通 过 把 这 些 需求 和 特定 领域 的 规则 相 结合 来 生成 
推荐 。 用 户 可 以 添加 约束 或 者 根据 结果 的 大 小 来 减少 约束 。 在 基于 案例 的 系统 中 ， 用 户 通 
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过 批评 过 程 来 交互 地 修改 目标 和 候选 列表 。 对 于 检索 ， 使 用 的 是 领域 相关 的 相似 度 函 数 ， 
这 些 相 似 度 函数 也 可 以 通过 学 习 得 到 。 批 评 可 以 是 简单 的 、 复 合 的 或 者 动态 的 。 基 于 知识 
的 系统 很 大 程度 上 基于 用 户 需 求 ， 而 且 它 们 只 利用 有 限 的 历史 数据 。 因 此 ， 它 们 在 处 理 冷 
启动 问题 上 表现 得 很 好 。 这 种 方法 的 缺点 就 是 历史 信息 不 是 用 来 “填充 空白 "”。 在 最 近 几 
年 ， 使 用 用 户 会 话 的 历史 信息 来 达到 更 高 个 性 化 程度 的 方法 已 经 被 提出 。 


5.6 WKF 


可 以 在 文献 L197, 417] 中 发 现 有 关 不 同 的 基于 知识 的 推荐 系统 和 偏好 引出 方法 的 概 
述 。 基 于 案例 的 推荐 系统 可 见 文 献 [102，116，377，558]。 有 关 偏 好 引出 和 批评 的 概述 
可 参考 文献 [148，149]。 文 献 [196，197] 讨论 了 基于 约束 的 推荐 系统 。 从 历史 角度 来 
看 ， 基 于 约束 的 推荐 系统 的 提出 要 晚 于 基于 案例 的 推荐 系统 。 实 际 上 ，Burkeli1] 所 写 的 
在 基于 知识 的 推荐 系统 方面 的 原始 论文 大 多 数 描述 的 是 基于 案例 的 推荐 。 但 是 ， 也 描述 了 
基于 约束 的 推荐 的 一 些 方面 。 文 献 [155，531] 则 讨论 了 在 基于 约束 的 推荐 系统 中 的 上 下 
文中 学 习 实 用 性 函数 的 方法 。 在 基于 约束 的 系统 中 ， 处 理 空 结果 的 方法 ， 比 如 在 小 冲突 集 
上 的 快速 发 现 以 及 最 小 关联 的 讨论 可 见 [198，199，273，274，289，419，574]。 这 些 工 
作 也 讨论 了 这 些 冲 突 集合 如 何 能 被 用 来 提供 解释 和 对 用 户 查 询 作 出 判断 。 文 献 [196， 
389] 讨论 了 选择 下 一 个 约束 属性 的 基于 流行 度 的 方法 。 对 于 属性 约束 的 默认 值 的 选取 的 
讨论 可 见 【483]。 一 个 广为人知 的 基于 约束 的 推荐 系统 就 是 VITA HERO, CRE 
CW Advisor 系统 [2 的 基础 上 建立 的 。 

文献 C18, 97, 163, 563, 627] 讨论 了 基于 案例 的 推荐 的 相似 度 函 数 的 学 习 。 文 献 
[563] 中 的 研究 值得 注意 的 是 ， 它 学 习 了 各 种 特征 的 权重 ， 以 进行 相似 度 计 算 。 对 基于 案 
例 系统 的 学 习 相 似 度 函 数 的 强化 学 习 方 法 的 讨论 可 见 [288，506]。 为 增加 基于 案例 推荐 
系统 的 多 样 性 ， 文 献 [560] 讨论 了 随机 选择 边界 和 贪 林 选择 边界 策略 。 文 献 [550] 中 的 
工作 也 像 贪 禁 边界 方法 中 那样 ， 结 合 了 相似 度 和 多 样 性 ， 但 是 它 使 用 的 仅仅 是 在 检索 的 
5b， 上 个 例子 的 集合 中 的 多 样 性 ， 而 不 是 创建 一 个 结合 相似 度 和 多 样 性 的 质量 指标 。 文 献 
[420] 讨论 了 对 于 强化 多 样 性 的 相似 度 层 数 和 相似 度 间 隔 的 概念 。 文 献 [421] 讨论 了 一 
个 对 于 强化 多 样 性 的 妥协 驱动 的 方法 。 对 于 相似 度 的 多 样 化 的 基于 顺序 的 检索 的 能 力 可 见 
[101]。 文 献 [94，560] 的 实验 结果 展示 了 合并 多 样 性 到 推荐 系统 中 的 优势 。 有 关 基 于 案 
例 的 推荐 系统 中 批评 的 问题 的 细节 讨论 可 参考 [417，422，423]。 文 献 [120] 首先 讨论 
了 复合 批评 ， 尽 管 这 个 观点 首先 是 [414] 创造 的 。 一 个 关于 不 同 复合 批评 技术 的 对 比 讨 
论 可 见 L664]。 把 解释 用 在 复合 批评 中 的 讨论 可 见 [492]. 

文献 [120，121] 提出 了 早期 的 基于 案例 的 推荐 在 进入 Entree 餐厅 推荐 的 上 下 文中 。 这 
些 系 统 的 早期 形式 也 指 的 是 FindMe 系统 D2] ， 已 经 表明 可 以 适用 于 很 多 领域 。Wasabi 个 人 
购物 车 是 一 个 基于 案例 的 推荐 系统 ， 可 见 [125]。 基 于 案例 的 系统 已 经 被 用 于 旅游 建议 服 
BOT), ER HB HR BE], EE (Car Navigator)0?]、 录 像 销 售 (Video Naviga- 
tor) 20, g (Pick A Flick)020 、 数 字 影 院 推荐 〈 比 如 Qwikshop)!279-491) 和 租赁 财产 
住所 [263] 。 

大 部 分 基于 知识 的 系统 影响 用 户 的 需求 和 偏好 ， 如 在 单一 时 间 段 说 明 的 那样 。 因 此 ， 
如 果 不 同 的 用 户 输入 了 相同 的 输入 ， 他 们 将 会 获得 完全 一 样 的 结果 。 尽 管 这 样 的 方法 可 以 
给 用 户 提供 很 好 的 控制 ,但 是 它 也 不 能 很 好 地 处 理 冷 启动 问题 ， 这 种 时 候 ， 它 会 倾向 于 忽 
略 历 史 数 据 。 最 近 几 年 已 经 见证 了 关于 用 户 在 基于 知识 的 推荐 系统 的 长 久 和 可 持续 的 信息 
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的 增加 (95,454,558] 。 这 种 系统 的 一 个 例子 是 CASPER 在 线 招聘 系统 [55 ， 这 个 系统 生成 了 可 
用 于 将 来 推荐 的 持久 化 的 用 户 画 像 。 一 个 使 用 用 户 画 像 的 个 性 化 旅游 推荐 系统 的 讨论 可 参 
A [170]。 相 似 用 户 的 时 间 段 会 影响 个 性 化 的 旅游 推荐 [5 。 这 种 方法 不 仅 影响 目标 用 户 
的 行为 而 且 影响 在 一 个 用 户 社区 中 可 用 的 协同 过 滤 信息 。 文 献 [641] 中 的 工作 以 协同 方 
式 使 用 在 多 种 时 间 段 的 批评 信息 来 建立 用 户 画 像 。 另 一 个 相关 工作 是 MAUT 方法 [665] ， 
这 种 方法 是 基于 多 属性 实用 性 理论 。 这 种 方法 为 每 个 用 户 在 他 们 过 去 时 间 段 的 批评 上 学 习 
了 一 个 实用 性 偏好 函数 。 有 关 更 好 地 在 系统 中 使 用 持久 化 数据 的 另 一 个 例子 是 人 口 统计 信 
息 。 尽 管 人 口 统计 信息 推荐 系统 在 使 用 中 是 变化 的 017'329] ， 但 是 当 以 在 线 方式 画像 关联 规 
则 被 用 来 给 用 户 交 互 地 建议 偏好 的 时 候 5s3 ， 有 一 些 人 口 统计 系统 可 以 被 当 作 基于 知识 
的 系统 。 这 些 系统 允许 对 查询 进行 逐步 细 化 ， 从 而 为 特定 的 统计 组 派生 出 最 适当 的 规则 
集 。 相 似 地 ， 不 同类 型 的 基于 实用 性 的 推荐 和 排名 技术 也 用 在 基于 知识 的 推荐 上 下 
Solely 


5.7 ”习题 


. 实现 一 个 算法 来 决定 是 否 一 个 特定 用 户 的 需求 和 一 个 基于 知识 的 规则 集 将 会 从 产品 目录 中 检索 一 个 空 
集 。 假 定 规则 的 前 件 和 后 件 都 包含 一 个 单一 的 产品 特征 上 的 约束 ， 在 数值 属性 上 的 约束 是 以 不 等 式 的 
形式 (比如 Price<30), 在 类 别 属性 上 的 约束 是 以 实例 化 的 形式 (比如 Color=Blue). MA, ALP hie 
求 也 在 特征 空间 中 以 类 似 的 约束 来 表示 。 

. 设想 你 有 关于 一 个 特定 用 户 和 某 个 特定 领域 的 大 的 物品 集合 (比如 汽车 ) 的 包含 效用 值 的 信息 集合 。 
假定 第 j 个 产品 的 效用 值 是 wj GE {1…n)})。 每 个 物品 用 一 个 包含 d 个 属性 的 集合 来 描述 。 讨 论 在 这 个 
用 户 的 其 他 相同 产品 领域 ， 你 将 会 如 何 使 用 这 些 数据 来 对 其 他 物品 评分 。 
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诗人 的 直觉 和 理性 的 思考 相 比 ， 哪 一 种 更 可 靠 ? 我 认为 它们 相得益彰 。 
Manuel Puig 





6.1 引言 


在 前 几 章 中 ， 我 们 讨论 了 三 种 不 同 的 推荐 方法 。 协 同方 法 使 用 一 个 社区 (community) 
中 所 有 用 户 的 评分 来 做 推荐 ， 其 中 基于 内 容 的 方法 是 使 用 单一 (single) 用 户 的 评分 和 以 
属性 为 中 心 的 物品 描述 来 做 出 推荐 。 基 于 知识 的 方法 需要 根据 用 户 明 确 的 需求 来 做 推荐 ， 
而 不 需要 任何 历史 评分 。 因 此 ， 这 些 方法 使 用 不 同 的 数据 来 源 ， 并 且 也 有 着 自身 的 优 缺 点 。 
例如 ， 因 为 并 不 需要 使 用 评分 ， 基 于 知识 的 系统 比 基 于 内 容 的 系统 和 协同 系统 能 更 好 地 处 理 
冷 启 动 问 题 。 另 一 方面 ， 在 使 用 源 于 历史 数据 的 持续 个 性 化 (persistent personalization) 信息 
时 ， 基 于 知识 的 系统 不 如 协同 系统 和 基于 内 容 的 系统 高 效 。 如 果 不 同 的 用 户 在 基于 知识 的 交 
互 接口 输入 了 相同 的 需求 和 数据 ， 他 们 也 许 会 得 到 完全 相同 的 推荐 结果 。 

所 有 这 些 模型 看 上 去 都 彼此 孤立 ， 尤 其 当 用 户 能 够 获取 多 种 来 源 的 数据 时 更 是 如 此 。 
通常 ， 为 了 得 到 一 个 鲁 棒 的 推荐 ， 用 户 往往 会 利用 来 自 不 同 数据 源 的 各 种 可 用 的 知识 ， 同 
时 也 会 利用 不 同 推荐 系统 的 各 类 算法 。 为 了 探索 所 有 的 可 能 性 ， 我 们 引 和 人 混合 推荐 系统 。 
有 三 种 建立 混合 推荐 系统 的 主要 方法 : 

1) 集成 式 设计 (ensemble design): 在 这 种 设计 方案 中 ， 由 各 种 现 有 算法 产生 的 所 有 
结果 被 整合 进 一 个 单一 的 更 加 具有 健壮 性 的 输出 中 。 例 如 ， 我 们 也 许 会 将 一 个 基于 内 容 的 
推荐 系统 和 一 个 协同 的 推荐 系统 产生 的 评分 输出 整合 进 一 个 单一 输出 中 。 根 据 整合 过 程 中 
所 使 用 的 不 同方 法 ， 会 产生 各 种 具有 明显 差异 的 结果 。 这 种 设计 方法 在 实现 过 程 中 的 基本 
原则 同 聚 类 、 分 类 和 离 群 值 分 析 等 许多 数据 挖掘 应 用 中 的 集成 式 设 计 方 法 十 分 相似 。 

集成 式 设计 的 形式 化 描述 如 下 。 令 Ri 为 一 个 由 第 个 算法 输出 的 mm 个 用 户 对 于 n 个 物 
品 的 评分 预测 的 mxXn 和 矩阵 ，kE {1…g)。 也 就 是 说 ， 共 有 gq 个 不 同 的 算法 被 用 于 产生 这 些 
预测 。R 中 的 第 (uj) 个 元 素 包含 了 第 个 算法 产生 的 用 户 w 对 物品 j 的 评分 的 预测 。 
需要 注意 的 是 ， 初 始 评分 矩阵 R 中 已 知 的 评分 在 每 一 个 Ri 中 都 是 相同 的 ， 只 有 R 中 那些 


， 未 知 的 元 素 在 不 同 的 R# 中 才 会 因为 算法 的 不 同 而 产生 不 同 的 预测 。 算 法 的 最 终结 果 通 过 将 


各 个 预测 矩阵 Ri … 恨 ,整合 为 单一 输出 得 到 。 这 一 整合 过 程 可 以 通过 多 种 方法 实现 ， 例 如 计 
算 各 种 预测 的 加 权 平 均值 。 此 外 ， 在 一 些 流 水 线 (sequential) ERAH, MIE R 
也 许 取决 于 前 一 预测 矩阵 Ri-: 。 在 其 他 情况 中 ， 输 出 有 可 能 不 是 被 直接 整合 起 来 的 。 也 就 
是 说 ， 前 一 系统 的 输出 被 作为 特征 Cleature) 用 于 下 一 系统 的 输入 。 这 些 系统 的 共同 特征 
Æ: (a) 它们 使 用 现 有 的 常用 的 推荐 系统 ; b) 它们 产生 一 个 整合 后 的 评分 或 者 排序 。 

2) 整体 式 设计 (monolithic design): 在 这 种 设计 方案 中 ， 我 们 可 以 通过 使 用 多 种 数 
据 类 型 创建 一 种 整体 式 的 推荐 算法 。 与 集成 式 设 计 方 法 不 同 ， 算 法 的 各 部 分 〈 例 如 基于 内 
容 和 协同 方法 ) 之 间 有 时 并 不 会 产生 明显 的 差别 。 在 其 他 情况 下 ， 即 便 基 于 内 容 的 阶段 和 
协同 阶段 已 经 存在 着 很 明显 的 差别 ， 现 有 的 基于 内 容 的 或 者 协同 的 推荐 算法 也 需要 改进 ， 
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使 其 能 够 应 用 在 整体 式 设计 中 。 因 此 ， 这 种 方法 趋向 于 将 各 种 数据 来 源 更 加 紧密 地 整合 在 
一 起 ， 而 且 用 户 不 能 轻易 地 将 各 个 独立 部 分 看 作 现 成 的 黑箱 。 

3) 交 又 式 系 统 (mixed system): 与 集成 式 设计 方法 类 似 ， 交 又 系统 将 多 种 推荐 算法 
作为 黑箱 使 用 ， 并 且 推 荐 算法 推荐 出 的 物品 被 并 列 地 展示 出 来 。 例 如 ， 某 一 天 的 全 部 电视 
节目 是 包含 许多 物品 的 整合 实体 。 独 立地 考虑 某 一 单独 的 推荐 物品 是 没有 意义 的 ， 即 推荐 
内 容 是 由 许多 物品 整合 产生 的 。 

因此 ,“ 混 合 系统 ”这 一 术语 比 “ 集 成 系统 ”可 用 于 更 广泛 的 语 境 中 。 根 据 定义 ， 所 
有 的 集成 系统 都 是 混合 系统 ， 但 反之 则 不 一 定 是 正确 的 。 

虽然 混合 系统 通常 包含 多 种 推荐 系统 (例如 基于 内 容 的 和 基于 知识 的 推荐 系统 )， 但 
这 仍 不 能 解释 为 什么 这 些 系统 不 能 将 同 种 模型 整合 在 一 起 。 因 为 基于 内 容 的 模型 从 本 质 上 
来 说 是 文本 分 类 器 ， 所 以 存在 着 多 种 用 于 提高 分 类 器 精确 度 的 集成 模型 。 因 此 ， 任 何 基于 
分 类 器 的 集成 系统 都 可 以 被 用 于 提高 基于 内 容 模型 的 效率 。 这 一 论证 同样 适用 于 协同 推荐 
模型 。 例 如 ， 用 户 可 以 很 容易 地 将 一 个 潜在 因子 模型 产生 的 预测 结果 和 近邻 模型 产生 的 结 
果 相 结合 ， 来 获得 更 准确 的 推荐 信息 526] 。 实 际 上 ，Netflix 大 奖 赛 中 胜出 的 两 种 9 被 称 为 
“Bellkor’s Pragmatic Chaos”[31 和 “The Ensemble”[7og] 的 方法 都 是 集成 系统 。 

从 更 广泛 的 层面 来 说 ， 混 合 推荐 系统 与 分 类 领域 中 集成 分 析 关 系 密切 。 例 如 ， 正 如 我 们 
在 第 3 章 中 讨论 过 的 ， 协 同 模型 是 分 类 模型 的 泛 化 。 在 6.2 节 中 ， 我 们 将 会 讨论 到 分 类 中 的 
集成 分 析 的 理论 基础 与 协同 过 滤 的 理论 基础 很 相似 。 因 此 在 这 一 章 中 ， 我 们 会 集中 讨论 推 
荐 方法 如 何 被 用 于 提高 协同 推荐 系统 的 有 效 性 ， 类 似 于 在 数据 分 类 领域 对 集成 方法 的 
使 用 。 

根据 Burke!!!) MIG. 混合 推荐 系统 可 以 被 分 为 如 下 几 类 : 

1) 加 权 型 (weighted): 在 这 种 情况 中 ,将 几 个 推荐 系统 上 的 分 数 通过 加 权 整 合成 一 
个 单一 的 统一 的 分 数 。 权 重 函 数 的 定义 可 能 是 启发 式 的 ， 也 可 能 是 使 用 某 些 统计 模型 。 

2) 切换 型 (switching): 这 种 算法 根据 当前 需要 在 各 种 推荐 系统 之 间 进 行 转换 。 例 
如 ， 在 初期 阶段 ， 这 一 算法 使 用 基于 知识 的 推荐 系统 来 避免 冷 启动 问题 。 之 后 当 能 够 获得 
更 多 的 评分 数据 时 ， 算 法 会 切换 使 用 基于 内 容 的 推荐 系统 或 者 协同 推荐 系统 。 换 句 话 说， 
在 某 一 特定 时 间 点 ， 系 统 会 相应 地 选择 那 种 能 够 产生 最 精确 推荐 信息 的 推荐 方法 。 

3) 级 联 型 (cascade): 在 这 种 情况 中 ， 后 面 的 推荐 方法 对 前 面 推荐 方法 产生 的 推荐 结 
果 进 行 优化 。 在 例如 boosting 算法 等 广义 形式 的 级 联 型 算法 中 ， 后 一 推荐 系统 的 训练 过 程 
会 受 前 一 推荐 系统 输出 的 影响 ， 并 且 所 有 的 推荐 结果 都 会 被 整合 进 一 个 单一 的 输出 中 。 

4) 特征 放大 型 (feature augmentation): 前 一 推荐 系统 的 输出 被 用 于 创建 后 一 推荐 系 
统 的 输入 特征 。 级 联 型 混合 方法 依次 将 之 前 推荐 系统 产生 的 推荐 结果 进行 优化 ， 而 特征 放 
大 型 方法 则 将 这 些 推荐 结果 作为 下 一 系统 的 输入 (input)。 这 一 方法 和 经 常 被 用 于 分 类 的 
A (stacking) 算法 在 概念 上 有 很 多 相似 之 处 。 在 堆 释 算法 中 ， 前 一 分 类 器 的 输出 被 用 
作 后 一 分 类 器 的 输入 特征 。 因 为 不 同 的 推荐 系统 通常 被 作为 现成 的 黑箱 使 用 ， 这 一 方法 在 
大 多 数 情 况 下 仍然 被 视 为 一 种 集成 方法 ， 而 不 是 整体 式 方法 。 

5) 特征 组 合 型 (feature combination); 在 这 种 情况 中 ， 源 于 不 同 数据 来 源 的 特征 被 组 合 起 
来 并 且 被 用 于 一 个 单一 推荐 系统 中 。 这 种 方法 可 以 被 看 作 是 整体 系统 ， 而 不 能 被 称 为 集成 方法 。 

6) 元 级 型 (metaleve): 被 用 于 一 个 推荐 系统 的 模型 也 会 被 用 作 另 一 系统 的 输入 。 一 





加 ”两 种 方法 在 错误 率 上 不 分 胜 负 。 前 者 因为 早 提交 了 20 分 钟 而 最 终 获 奖 。 
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种 典型 的 整合 方式 是 将 基于 内 容 的 系统 和 协同 系统 整合 在 一 起 。 协 同系 统 被 加 以 修改 以 使 
用 内 容 特征 来 创建 同类 群体 。 接 下 来 同类 群体 与 评分 矩阵 被 共同 用 于 预测 。 需 要 注意 的 
是 ， 这 种 方法 将 协同 系统 加 以 修改 以 使 用 一 个 内 容 矩 阵 来 寻找 同类 群体 ， 但 是 最 终 的 预测 
结果 仍然 被 以 评分 矩阵 的 形式 表现 出 来 。 因 此 ， 协 同系 统 需要 被 修改 ， 并 且 使 用 者 不 能 将 
其 当 作 现成 的 流行 的 方法 使 用 。 这 使 得 元 级 型 方法 更 类 似 于 整体 系统 ， 而 不 是 集成 系统 。 
其 中 一 些 方法 也 因为 它们 整合 了 协同 和 内 容 信息 的 方式 而 被 称 作 “通过 内 容 协 作 的 系统 ”。 

7) RAB (mixed): 来 源 于 多 个 推荐 引擎 的 推荐 信息 被 同时 呈现 在 用 户 面前 。 严 格 
来 说 ， 这 种 方法 不 是 集成 系统 ， 因 为 它 不 会 将 各 部 分 对 于 特定 物品 的 评分 整合 在 一 起 。 而 
且 ， 这 种 方法 通常 用 于 推荐 内 容 是 复合 (composite) 实体 的 情况 。 在 这 种 复合 实体 中 ， 
各 种 物品 可 以 被 作为 一 个 相关 集合 进行 推荐 。 例 如 ， 电 视 节 目 可 以 由 多 个 推荐 物品 构 
成 559] 。 因 此 ， 这 种 方法 和 前 文 提 到 的 方法 都 有 很 大 的 不 同 。 另 一 方面 ， 这 种 方法 确实 将 
其 他 推荐 系统 ， 如 集成 系统 等 ， 当 作 黑 箱 使 用 ， 但 是 这 种 方法 又 不 会 将 来 源 于 不 同 推荐 系 
统 对 于 同一 物品 的 预测 评分 整合 在 一 起 。 因 此 ， 交 又 推荐 系统 不 能 被 看 作 是 整体 系统 或 者 
集成 系统 ， 于 是 就 被 划分 为 一 个 独立 的 分 类 。 这 种 方法 和 复杂 物品 域 相关 度 很 高 ， 并 且 它 
经 常 与 基于 知识 的 推荐 系统 协同 工作 。 

前 文 提 及 的 前 4 种 类 型 是 集成 系统 ， 接 下 来 的 两 种 是 整体 系统 ， 最 后 一 种 是 交叉 系 
统 。 最 后 一 种 交叉 型 分 类 不 能 直接 被 分 为 整体 系统 或 者 集成 系统 ， 因 为 这 种 方法 将 许多 推 
荐 信息 作为 合成 的 整体 展示 出 来 。 图 6-1 展示 了 这 些 系统 的 层次 化 分 类 。 即 使 我 们 已 经 使 
用 了 如 论文 [7 引 所 介绍 的 那 种 更 高 层 的 分 类 方法 来 将 并 行 系统 和 流水 线 系统 9 加 以 分 类 ， 
我 们 仍然 要 强调 Burke 所 阐述 的 这 种 6 个 分 类 的 分 类 方法 和 [275] 中 的 分 类 方法 相 比 有 
微小 的 不 同 。 与 [275] 中 介绍 的 将 元 级 型 系统 分 为 流水 线 系统 的 方法 不 同 ， 我们 将 元 级 
型 系统 看 作 整 体系 统 ， 因 为 用 户 不 能 像 在 真正 的 集成 系统 中 那样 使 用 现 有 的 推荐 系统 算 
法 。 类 似 的 ，[275] 将 特征 放大 型 混合 系统 看 作 是 整体 系统 。 尽 管 各 个 独立 的 推荐 系统 在 
特征 放大 型 混合 系统 中 以 更 加 复杂 的 方式 被 组 合 在 一 起 ， 但 从 更 高 层面 来 说 ， 这 些 独立 的 
推荐 系统 仍然 被 作为 现成 的 黑箱 来 使 用 。 这 是 集成 系统 区 别 于 整体 系统 的 最 显著 特征 。 特 
征 放大 型 方法 与 分 类 中 的 堆 秋 算法 十 分 相似 。 因 此 ， 我 们 将 特征 放大 型 混合 系统 看 作 是 集 
成 系统 而 不 是 整体 系统 。 但 是 ， 在 特征 放大 型 混合 系统 的 某 些 情况 中 ， 需 要 将 现 有 的 推荐 
系统 进行 一 些微 小 的 改动 。 在 这 些 情况 中 ， 严 格 来 说 这 些 系 统 可 以 被 视 为 整体 式 设计 系 统 。 
在 图 6-1 中 我 们 用 虚线 表示 这 种 可 能 性 。 

混合 系统 


` 
‘ 型 
特征 放大 型 ARH ” 加 权 型 ”切换 型 
6-1 混合 系统 的 分 类 


O ”这 种 系统 也 可 以 被 称 为 有 序 系统 己 习 。 
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除了 整体 系统 和 交叉 系统 不 能 被 视 为 真正 意义 上 的 集成 式 设计 系统 之 外 ， 所 有 的 集成 
式 设计 系统 要 么 是 并 行 系统 ， 要 么 是 流水 线 系统 L271。 在 并 行 设计 中 ， 各 种 推荐 系统 相互 
独立 地 运行 ， 各 个 独立 推荐 系统 产生 的 预测 结果 在 程序 的 末尾 被 组 合 起 来 。 加 权 型 方法 和 
切换 型 方法 可 以 被 看 作 并 行 设计 。 在 流水 线 设计 中 ， 一 个 推荐 系统 的 输出 被 用 于 另 一 个 推 
荐 系统 的 输入 。 级 联 型 方法 和 元 级 型 系统 可 以 被 看 作 是 流水 线 方法 的 实例 。 图 6-2 展示 了 
并 行 系统 和 流水 线 系统 的 组 合 过 程 。 在 这 一 章 中 ， 即 便 我 们 会 用 Burke 的 低级 别 分 类 
法 中 的 结构 来 进行 探讨 ， 我 们 仍 会 对 这 些 分 类 中 的 每 一 种 推荐 系统 进行 详细 介绍 。 





Py 
b) 流水 线 设计 系统 


图 6-2 并 行 和 流水 线 的 集成 系统 


本 章 内 容 安排 如 下 。 在 6.2 节 ， 我们 从 分 类 角度 讨论 基于 集成 的 推荐 系统 。 我 们 也 会 
探索 分 类 领域 中 集成 方法 的 现 有 理论 和 方法 论 如 何 被 应 用 于 推荐 系统 。 在 6. 3 节 ， 我 们 会 
讨论 一 些 加 权 型 混合 推荐 系统 的 实例 。 在 6.4 节 ， 我 们 会 讨论 一 些 转换 型 混合 推荐 系统 。 
6.5 节 讨 论 级 联 型 混合 推荐 系统 。6. 6 节 对 特征 放大 型 推荐 系统 进行 介绍 。 元 级 型 推荐 系 
统 在 6. 7 节 进 行 讨 论 。 特 征 组 合 型 方法 在 6. 8 节 进 行 介 绍 。 交 叉 型 系统 会 在 6. 9 节 进 行 介 
绍 。6. 10 节 给 出 本 章 小结 。 


6.2 从 分 类 角度 看 集成 方法 


集成 方法 在 数据 分 类 领域 得 到 了 广泛 应 用 ， 这 种 方法 经 常 被 用 于 提高 学 习 算 法 的 健壮 
性 。 正 如 下 文 即将 讨论 的 ， 这 一 理论 同样 被 应 用 于 许多 形式 的 推荐 系统 中 。 例 如 ， 基 于 内 
容 的 推荐 系统 通常 是 文本 分 类 算法 的 直接 应 用 。 因 此 直接 应 用 现 有 的 数据 分 类 领域 的 集成 
算法 通常 已 经 足够 获取 高 质量 的 推荐 结果 。 

我 们 在 第 1 章 讨论 过 ， 协 同 过 滤 是 数据 分 类 问题 的 泛 化 。 我 们 将 第 1 章 中 的 图 1-4 复 
制 到 第 6 章 中 图 6-3 的 位 置 来 说 明 这 两 个 问题 之 间 的 关系 。 从 图 6-3a 中 可 以 清晰 地 看 出 分 
类 中 的 特征 变量 和 类 变量 是 有 很 明显 差别 的 。 协 同 过 滤 区 别 于 分 类 的 最 主要 特征 就 是 前 者 
的 特征 变量 和 类 变量 不 存在 显著 差别 ， 并 且 任 何 一 行 都 有 可 能 出 现 元 素 丢 失 的 情况 。 任 何 
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一 行 都 有 可 能 出 现 元 素 丢 失 这 一 事实 也 意味 着 训练 实例 和 测试 实例 之 间 不 存在 明显 差别 。 
由 此 产生 了 一 个 突出 问题 ， 即 分 类 领域 的 偏差 -方差 理论 5245 是 否 同样 适用 于 推荐 系统 中 。 
重复 试验 [288'35 已 经 证 明了 将 多 个 协同 推荐 系统 组 合 起 来 通常 会 产生 更 加 准确 的 结果 ， 进 
而 证 明了 分 类 中 的 偏差 -方差 理论 同样 适用 于 协同 过 滤 中 。 这 意味 着 许多 传统 意义 上 分 类 
领域 的 集成 技术 同样 适用 于 协同 过 滤 中 。 而 且 ， 由 于 丢失 元 素 可 能 出 现在 数据 中 的 任何 一 
行 ， 有 时 将 数据 分 类 中 的 集成 算法 应 用 于 协同 过 滤 中 是 一 种 很 有 挑战 性 的 做 法 。 





7 
自 变 量 和 因 变 量 之 间 没 有 分 界 
a) 分 类 b) 协同 过 滤 
图 6-3 回顾 第 1 章 中 的 图 1-4。 将 传统 分 类 问题 和 协同 过 滤 相 比较 。 阴 影 块 是 需要 被 预测 的 


缺失 项 


我 们 首先 介绍 分 类 领域 的 偏差 -方差 平衡 问题 。 考 虑 如 图 6-3a 所 示 的 一 个 简化 了 的 分 
类 或 者 回归 模型 。 这 一 模型 包含 一 些 需 要 被 预测 的 特定 区 域 。 可 以 看 出 一 个 分 类 器 在 预测 
因 变量 时 产生 的 误差 可 以 被 分 解 为 以 下 三 个 部 分 : 

1) 偏差 (bias): 每 个 分 类 器 都 会 对 各 个 类 之 间 的 判定 边界 做 出 模型 假设 。 例 如 ， 线 
性 支持 向 量 机 分 类 器 会 假设 两 个 类 之 间 可 以 被 线性 判定 边界 分 开 。 这 在 实际 中 当然 是 错误 
的 。 换 名 话说， 任何 一 种 线性 支持 向 量 机 都 存在 着 固有 偏差 。 当 一 个 分 类 器 具有 高 偏差 
时 ， 即 使 在 学 习 过 程 中 使 用 不 同样 本 的 训练 数据 ， 它 总 会 在 邻近 判定 边界 的 测试 实例 上 做 
出 持续 性 的 错误 预测 。 

2) AZ (variance); 选取 训练 数据 时 的 随机 性 会 导致 产生 不 同 的 模型 ， 从 而 对 一 个 
测试 实例 上 的 因 变 量 产生 不 一 致 的 预测 结果 。 训 练 模型 的 方差 与 过 拟 合 紧密 相关 。 当 一 个 
分 类 器 有 过 拟 合 的 倾向 时 ， 对 于 同一 测试 实例 ， 分 类 器 会 由 于 训练 数据 集 的 不 同 而 产生 不 
一 致 的 预测 结果 。 

3) 噪声 (noise); 噪声 指 的 是 目标 类 的 标记 中 固有 的 错误 。 由 于 这 是 数据 质量 的 一 个 
本 质 特 性 ,我 们 基本 没有 办 法 减弱 噪声 。 因 此 通常 集成 分 析 的 重点 就 在 于 减 小 偏差 和 
方差 。 

一 个 分 类 器 在 某 一 特定 测试 集 上 的 期 望 均 方 误差 是 偏差 、 方 差 和 噪声 之 和 。 这 种 关系 
可 以 被 表示 如 下 : 

RE = 偏差 ?十 方差 十 噪声 (6-1) 
不 论 是 减 小 偏差 还 是 减 小 方差 ， 我 们 都 可 以 减 小 一 个 分 类 器 的 总 体 误差 。 例 如 ，bagging 
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算法 中 等 集成 分 类 方法 通过 减 小 方差 来 减 小 误差 ， 而 boosting 算法 中 则 通过 减 小 偏差 
达到 这 一 目的 。 分 类 与 协同 过 滤 之 间 的 唯一 区 别 就 在 于 前 者 的 未 知 元 素 可 以 出 现在 任何 一 
列 中 ,而 后 者 却 只 能 出 现在 类 变量 中 。 然 而 ， 无论 其 他 列 的 元 素 是 否 是 完全 已 知 ， 当 被 应 
用 于 预测 某 一 特定 列 时 ， 偏 差 一 方差 理论 中 的 结论 依然 成 立 。 这 就 意味 着 数据 分 类 中 集成 
分 析 的 基本 原则 在 协同 过 滤 中 同样 有 效 。 实 际 上 ， 正 如 我 们 即将 在 这 一 章 中 讨论 的 ， 例 如 
bagging 算法 或 者 boosting 算法 等 分 类 中 的 经 典 集成 算法 已 经 被 应 用 于 协同 过 滤 中 了 。 


6.3 加 权 型 混合 系统 

&R=([ry] 为 一 个 mXn 的 评分 和 矩阵。 在 加 权 型 混合 系统 中 ， 各 个 推荐 系统 的 输出 
被 按照 一 系列 权重 组 合 起 来 。 令 访 … 让 为 m Xn 的 完全 确定 (completely specified) 的 评 
分 矩阵 。R 中 的 未 知 元 素 由 g 个 不 同 的 算法 加 以 预测 。 需 要 注意 的 是 ， 初 始 m Xn Fae 
MR 中 已 知 的 元 素 rw 在 每 一 个 预测 矩 阵 R; 中 被 固定 为 其 观测 值 。 接 下 来 ， 对 于 一 系列 权 
Eana ， 加 权 型 混合 系统 生成 一 个 如 下 的 组 合 预测 矩阵 及 = [7 ] 


R = 为 4c es (6-2) 
i=l 
在 最 简单 的 情况 中 ， 我 们 可 以 令 ai = 三光 三 av 王 1/qg。 然 而 ， 我 们 更 希望 为 不 同 的 推荐 系 


统 赋 予 不 同 的 权重 ， 也 就 是 为 更 加 准确 的 推荐 系统 赋予 更 大 的 权重 。 有 若干 方法 可 以 完成 

这 一 过 程 。 对 于 和 矩阵 中 的 每 一 个 独立 元 素 ， 我 们 也 可 以 将 前 文 提 到 的 公式 写作 如 下 形式 : 
A Bich (6-3) 

i=l 

这 里 的 六 表示 第 ;个 集成 部 分 对 用 户 x 和 物品 7 做 出 的 预测 ，7w 表示 最 终 的 预测 结果 。 
为 了 确定 最 理想 的 权重 ,我 们 需要 评估 每 一 组 权重 组 合 qi…ag 的 有 效 性 。 这 一 问题 将 
会 在 第 7 章 中 详细 介绍 ， 但 在 此 为 了 方便 讨论 ， 我 们 仍然 会 给 出 一 种 简单 的 评估 方法 。 一 
种 简单 的 方法 是 从 mXn 评分 矩阵 及 = [ry] 中 取出 一 部 分 (例如 25%) 已 知 元 素 ， 然 后 
通过 将 g 种 基于 不 同方 法 的 算法 应 用 于 R 中 剩 下 的 75% 的 元 素 上 来 产生 预测 矩阵 Ri… 让 , 。 
接 下 来 按照 公式 (6-2) 把 这 些 预测 矩阵 访 … 有 R, 整 合成 预测 矩阵 及 。 我 们 将 这 些 取 出 的 用 
户 一 物品 元 素 (u, j) 表示 为 瓦 。 接 下 来 ， 对 于 给 定 权重 向 量 w= (ci…os)， 某 一 特定 权 
重组 合 的 有 效 性 可 以 被 通过 计算 预测 矩阵 R= (Py mx 中 取出 元 素 的 均 方 误差 (Mean- 

Squared Error, MSE) 或 者 平均 绝对 误差 (Mean Absolute Error, MAE) 来 进行 评估 。 


D (Ty = 
MSE(a)= SEN 
SS Er F Tuj | 





一 m pDEH 


这 些 测度 提供 了 一 种 对 于 特定 权重 组 合 a1…ag 的 评估 方法 。 我 们 怎样 才能 取 到 ai*…ay 的 最 
优 值 使 得 这 些 测度 最 小 化 呢 ?” 对 于 均 方 误差 MSE， 使 用 线性 回归 进行 分 析 是 一 种 简单 而 
有 效 的 方法 。 我 们 假设 元 素 集 H 中 的 评分 提供 了 因 变 量 的 真实 数据 ， 而 参数 a1…ay 则 为 自 
变量 。 这 一 方法 的 思路 是 选择 合适 的 自 变 量 ,使 得 对 于 H 中 已 知 评分 的 线性 组 合 的 均 方 
误差 最 小 化 。 在 第 4 章 4.4.5 节 中 我 们 已 经 对 线性 回归 模型 的 基本 知识 进行 了 介绍 。 相 比 
于 前 文中 的 线性 回归 模型 ， 两 者 之 间 最 主要 的 区 别 是 自 变量 和 因 变 量 的 确定 方法 ， 以 及 线 
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性 回归 问题 的 形式 化 表示 。 这 里 的 自 变 量 指 的 是 若干 模型 对 元 素 Cu, j) 产生 的 预测 评 
分 ， 因 变量 指 的 是 H 中 集成 组 合 的 每 一 个 预测 评分 ”六 的 值 。 因 此 ， 互 中 的 每 一 个 已 观测 
元 素 都 为 线性 回归 模型 提供 了 一 个 训练 样本 。 我 们 使 用 线性 回归 方法 在 训练 集 H 
得 到 回归 系数 ， 即 对 应 了 各 个 独立 模型 的 权重 。 在 获得 权重 之 后 ， 除 去 H 后 剩 下 的 训练 
集 被 用 于 重新 学 习 各 个 独立 的 推荐 模型 。 使 用 取出 元 素 集合 及 学 习 得 到 的 权重 与 这 g 个 
模型 协同 使 用 。 需 要 注意 的 是 ， 不 要 忘记 最 后 这 一 步骤， 其 目的 从 评分 矩阵 的 所 有 已 知 信 
息 来 获得 最 大 程度 的 学 习 。 论 文 [266] 介绍 了 线性 回归 方法 和 模型 整合 方法 。 与 上 文 相 
关 的 交叉 确认 方法 是 另 一 种 可 以 对 训练 数据 中 的 所 有 信息 进行 充分 利用 的 方法 。 这 一 方法 
将 在 第 7 章 中 进行 介绍 。 

尽管 许多 系统 都 只 是 简单 地 对 各 个 模型 产生 的 预测 结果 取 平 均 数 ， 回 归 分 析 却 能 够 保 
证 不 同 的 模型 被 赋予 了 合适 的 权重 。Netflix KRL 中 的 很 多 高 性 能 方法 都 使 用 了 
这 种 基于 回归 分 析 的 算法 ， 并 且 这 些 方法 和 数据 分 类 中 堆 秋 算法 的 概念 十 分 相似 。 

然而 ,线性 回归 方法 对 于 噪声 和 异常 值 十 分 敏感 。 这 是 因为 均 方 误差 函数 会 被 数据 中 
的 最 大 误差 过 度 影 响 。 为 了 解决 这 一 问题 ， 我 们 可 以 使 用 对 噪声 和 异常 值 的 出 现 敏感 性 较 
小 的 一 系列 具有 健壮 性 的 回归 分 析 方 法 。 其 中 一 种 方法 是 使 用 平均 绝对 误差 取代 均 方 误差 
作为 目标 函数 。 众 所 周知 ， 因 为 不 会 对 大 误差 过 分 强调 , 平均 绝对 误差 对 噪声 和 异常 值 具 
有 更 高 的 健壮 性 。 梯 度 下 降 法 是 确定 公式 (6-3) 中 参数 矩阵 Carra) 最 优 值 的 一 种 常用 
方法 。 这 一 算法 在 开始 时 令 a = a2 二 … 王 ag 二 1/q。 接 下 来 这 一 梯度 使 用 取出 元 素 集 合 H 
进行 计算 ,计算 过 程 如 下 : 





aly rar] 
OMAE(a) _ w,jen dai = 
fw 的 值 可 以 使 用 公式 6-3) 计算 ， 偏 导数 可 以 通过 计算 各 独立 模块 的 评分 而 简化 如 下 : 
ign (raj — rw Ty 
OMAEC@) _ ee a oe Te 
Aai H 
这 一 梯度 可 以 被 写作 独立 偏 导 数 的 形式 : 


aes MAE(z) OMAE(a) 
YN ( aal 党 org! 
这 一 梯度 接 下 来 通过 将 参数 空间 < 用 于 和 迭代 梯度 下 降 法 来 进行 参数 下 降 ， 其 过 程 如 下 : 

1) 初始 化 ， 令 z= 二 (1/g…1/g)， 并 使 1=0。 

2) 迭代 步骤 1: Sat <a 一 y，VMAE。 可 以 通过 使 用 线性 搜索 方法 确定 7 O> 
0)， 以 获得 平均 绝对 误差 的 最 大 修正 值 。 

D 迭代 步骤 2: 令 迭 代 次 数 1<=t 十 1。 

4) ERGR3 〈 收 敛 性 检验 ) : 如 果 平 均 绝对 误差 自 上 一 迭代 循环 后 减 小 了 ,那么 进 
TÆRER 1。 

5) 返回 ze2 。 

我 们 可 以 加 入 正则 化 方法 来 防止 过 拟 合 。 我 们 也 可 以 为 a; 的 各 个 值 加 上 其 他 约束 条 
件 ， 例 如 非 负 性 或 者 总 和 为 1。 这 些 自然 约束 条 件 提高 了 系统 对 于 未 出 现 元 素 的 普 适 性 。 
我 们 可 以 对 梯度 下 降 公 式 进 行 优化 来 遵守 这 些 约 束 条 件 。 在 确定 了 最 佳 权重 之 后 ， 所 有 的 
独立 模型 使 用 从 完整 训练 集中 去 除 取出 元 素 集 IH 的 训练 集 重 新 进行 训练 。 接 下 来 ， 我们 
将 这 些 模 型 产生 的 预测 结果 与 迭代 方法 产生 的 权重 向 量 结合 使 用 。 


基于 集成 的 混合 推荐 系统 153 








我 们 还 有 其 他 的 方法 来 进行 参数 搜索 。 一 种 更 加 简单 的 方法 是 在 取出 评分 集合 H E 
尝试 若干 种 经 过 仔细 选择 的 参数 组 合 。 例 如 ， 我 们 可 以 通过 保持 其 他 元 素 不 变 ， 只 对 某 一 
元 素 尝试 不 同 值 的 方法 依次 调整 中 的 各 个 元 素 。 这 种 方法 被 广泛 应 用 于 多 种 类 型 的 参数 
调整 [21 ， 并 且 经 常 能 提供 相当 准确 的 结果 。 C162, 659] 中 介绍 了 几 种 参数 搜索 方法 的 
实例 。 

还 可 以 通过 使 用 不 同 种 类 的 元 级 内 容 特征 [5' 88 5 来 进一步 优化 这 类 方法 。6. 8.2 节 
中 讨论 了 这 些 优化 方法 。 许 多 现 有 的 集成 方法 不 需要 这 种 复杂 的 组 合 方法 。 通 常情 况 下 ， 
这 些 现 有 方法 仅仅 对 不 同 组 成 部 分 的 预测 值 取 平均 值 。 当 可 用 预测 值 比 例 相 差 很 大 ， 或 者 
当 一 些 集成 部 分 比 其 他 部 分 预测 得 准确 得 多 时 ， 为 不 同 部 分 赋予 权 值 是 特别 重要 的 。 我 们 
会 在 下 文 介绍 一 些 不 同 种 类 模型 的 常见 组 合 实例 。 


6.3.1 几 种 模型 组 合 的 方法 


若干 推荐 引擎 在 加 权 模 型 组 合 过 程 中 被 组 合 起 来 。 以 下 是 两 种 具有 代表 性 的 模型 组 合 
方法 : 

1) 同 构 数 据 类 型 和 模型 类 : 在 这 种 情况 中 ,不 同 的 模型 使 用 相同 的 数据 。 例 如 ,我 
们 也 许 会 将 若干 不 同 的 协同 过 滤 引 擎 ， 例 如 基于 近邻 的 方法 、 奇 异 值 分 解 和 贝 叶 斯 方法 应 
用 在 同一 个 评分 矩阵 上 。 接 下 来 ， 这 一 方法 产生 的 若干 结果 被 整合 为 一 个 单一 的 预测 值 。 
这 种 方法 具有 较 高 的 健壮 性 ， 因 为 它 避 免 了 特定 算法 对 于 一 个 给 定数 据 集合 产生 特有 偏差 
的 情况 ， 尽 管 所 有 作为 成 分 的 模型 属于 同一 类 (例如 协同 方法 )。[266」 提供 了 这 种 整合 
方法 的 一 个 实例 。[L637] 展示 了 由 三 个 不 同 的 矩阵 分 解 方法 组 成 的 集成 系统 是 如 何 产生 高 
质量 结果 的 。 这 种 方法 的 特别 之 处 在 于 它 将 正则 化 矩阵 分 解 方 法 、 非 负 和 矩阵 分 解 方 法 和 最 
大 间隔 矩阵 分 解 方法 作为 集成 系统 的 部 件 ， 再 将 相应 的 结果 取 平 均值 作为 最 终结 果 。[67] 
讨论 了 一 种 有 趣 的 融合 集成 Cusion ensemble) 方法 ， 这 种 方法 使 用 相同 的 推荐 算法 作为 
集成 系统 的 部 件 ， 但 是 却 选用 不 同 的 参数 或 者 算法 设计 方法 。 例 如 ， 这 种 方法 在 奇异 值 分 
解 算法 中 使 用 不 同 数量 的 潜在 因子 ， 在 基于 近邻 算法 中 使 用 不 同 数量 的 最 近邻 ， 或 者 使 用 
不 同 的 相似 性 度量 算法 。 接 下 来 ， 这 种 方法 将 各 个 系统 产生 的 预测 评分 取 平 均值 。 [67] 
中 论证 了 这 种 简单 的 方法 几乎 总 会 提高 基础 模型 的 效率 。 这 一 方法 的 一 种 较 早 的 变形 08o] 
使 用 最 大 间隔 和 矩阵 分 解 方法 的 集成 系统 ， 但 是 使 用 了 不 同 的 参数 设 定 。[338] 介绍 了 一 种 
将 基于 用 户 的 近邻 算法 和 基于 物品 的 近邻 算法 相 结合 的 方法 。 

2) 异 构 数 据 类 型 和 模型 类 : 在 这 种 情况 中 ， 不 同类 型 的 模型 使 用 不 同 的 数据 来 源 。 
例如 ， 集 成 模型 的 一 个 部 件 也 许 是 使 用 评分 矩阵 的 协同 过 滤 推 荐 系统 ， 而 另 一 个 部 件 则 有 
可 能 是 基于 内 容 的 推荐 系统 。 从 本 质 上 来 说 ， 这 种 方法 在 组 合 过 程 中 利用 了 若干 数据 来 源 
的 优势 。 其 思想 是 利用 各 种 数据 来 源 的 互补 信息 来 产生 最 准确 的 推荐 结果 。 例 如 ， 论 文 
[659] 将 协同 推荐 系统 和 基于 知识 的 推荐 系统 相 结合 ， 而 论文 [162] 将 基于 内 容 的 推荐 
系统 和 协同 推荐 系统 相 结合 。 当 使 用 不 同 数据 类 型 时 ， 更 加 需要 慎重 地 为 各 个 集成 部 分 产 
生 的 预测 评分 赋予 权重 。 

这 两 种 不 同 的 组 合 方法 为 探索 其 他 种 类 的 模型 组 合 方法 提供 了 极 好 的 灵活 性 。 


6.3.2 对 分 类 中 的 bagging 算法 的 调整 


正如 我 们 在 本 章 前 文 讨 论 过 的 那样 ， 偏 差 一 方差 平衡 中 的 理论 结果 同样 适用 于 协同 过 
滤 问 题 ， 因 为 协同 过 让 问题 是 分 类 问题 的 泛 化 。bagging 算法 是 分 类 中 一 种 常用 的 权重 组 
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合 方法 。 因 此 ， 这 一 方法 也 适用 于 协同 过 滤 问 题 ， 但 需要 被 稍稍 地 调整 来 适应 协同 过 滤 问 
题 与 分 类 问题 之 间或 多 或 少 的 不 同 。 我 们 首先 讨论 分 类 中 的 bagging HH. 

bagging 的 基本 思想 是 降低 误差 中 的 方差 部 分 。 在 bagging 算法 中 ， RNA A Ai 
样 (bootstrapped sampling) 方法 建立 q 个 训练 数据 集 。 在 自 举 抽 样 过 程 中 ,我 们 使 用 有 
放 回 的 方法 对 数据 矩阵 中 的 行进 行 抽样 ， 以 创建 一 个 与 原 数 据 集 大 小 相同 的 新 数据 集 。 这 
一 新 的 训练 集 的 特点 是 包含 许多 从 原 训练 数据 集 复制 过 来 的 元 素 。 对 于 原 数 据 矩 阵 中 的 所 


有 行 ， 其 不 在 给 定 自 举 抽样 样本 集中 的 比例 的 期 望 是 1/e， 这 里 ee 为 自然 常数 。 对 应 抽样 


的 g 个 训练 集 ， 这 一 算法 创建 了 g 个 训练 模型 。 对 于 一 个 给 定 的 测试 实例 ，bagging 算法 
将 返回 这 g 个 模型 的 平均 预测 值 。bagging 算法 通常 会 提高 分 类 的 准确 性 ， 因 为 它 减 少 了 
误差 中 的 方差 部 分 。subagging 算法 [111, 112] 是 bagging 算法 的 一 种 特殊 变形 ， 这 种 算 
法 将 矩阵 中 的 行进 行 二 次 抽样 (subsample). 。 例 如 ， 我 们 可 以 仅 使 用 自 举 抽样 样本 中 所 有 
的 不 同 的 行 来 对 模型 进行 训练 。 对 于 协同 过 滤 来 说 ，bagging 算法 和 subagging 算法 可 以 
被 泛 化 为 如 下 形式 : 

D 行 上 的 自 举 抽样 方法 : 在 这 种 情况 中 ， 评 分 和 矩阵 R 的 行 被 使 用 有 放 回 的 方法 进行 
抽样 ， 来 创建 一 个 相同 规模 的 新 的 评分 矩阵 。 这 样 就 会 产生 g 个 评分 矩阵 Ri…R。 。 需 要 注 
意 的 是 ， 在 抽样 过 程 中 ， 虽 然 被 视 为 独立 行 ， 这 些 行 也 可 能 会 被 复制 而 产生 重复 行 〈 用 
户 ) 。 接 下 来 ， 一 个 现成 的 协同 过 滤 算 法 〈 例 如 潜在 因子 模型 ) 会 被 应 用 于 这 9 个 训练 数 
据 集中 。 对 于 每 个 训练 数据 集 ， 只 有 当 某 一 用 户 在 用 户 和 矩阵 中 出 现 至 少 一 次 时 ， 算 法 才 会 
为 这 一 用 户 预测 物品 评分 。 在 这 样 的 情况 下 ， 该 集成 部 件 中 该 用 户 对 物品 的 评分 即 是 取 所 
有 该 用 户 行 上 的 评分 的 平均 值 S 。 接 下 来 ,我 们 将 所 有 这 一 用 户 出 现 的 集成 部 分 所 产生 的 
物品 预测 评分 取 平 均值 。 需 要 注意 的 是 ， 对 于 一 个 较 大 的 g 值 ， 通 常 每 一 个 用 户 都 会 在 至 
少 一 个 集成 部 分 中 出 现 。 这 一 可 能 性 为 1 一 (1/e)r。 因 此 ， 我们 可 以 说 所 有 的 用 户 都 有 很 
高 的 概率 被 表示 出 来 。 

2) 行 上 的 二 次 抽样 方法 : 这 种 方法 和 行 上 的 自 举 抽样 方法 十 分 相似 ， 只 是 该 方法 是 
无 放 回 的 抽样 。 被 抽样 行 占 所 有 行 的 比例 系数 了 是 0.1 一 0.5 之 间 的 一 个 随机 数 。 集 成 部 
件 的 数量 g 应 远大 于 10， 以 确保 所 有 的 行 都 能 被 选中 。 这 一 方法 的 主要 问题 是 算法 在 对 评 
分 矩阵 中 所 有 元 素 进 行 预测 时 十 分 麻烦 ， 我 们 不 得 不 对 少数 量 的 集成 部 件 取 平均 数 。 这 种 
方法 并 不 能 充分 获取 方差 缩减 方法 的 优势 。 

3) 元 素 上 的 bagging 抽样 方法 : 在 这 种 情况 中 ， 原 评分 矩阵 中 的 元 素 被 有 放 回 地 抽 
样 ， 以 产生 a 个 不 同 的 评分 和 矩阵 Ri…R, 。 我 们 将 元 素 进 行 加 权 以 应 对 可 能 有 元 素 被 重复 抽 
样 的 情况 。 因 此 ， 我 们 需要 使 用 基本 的 协同 过 滤 算 法 来 处 理 加 权 元 素 。 这 些 算 法 将 在 
6.5.2.1 节 进 行 讨论 。 它 与 行 上 的 bagging 算法 相似 ， 最 终 的 预测 结果 是 各 个 集成 部 分 的 
预测 评分 的 平均 数 。 

4) 元 素 上 的 二 次 抽样 方法 : 在 元 素 上 的 二 次 抽样 方法 中 ， 评 分 矩阵 R 中 的 一 定 比 例 
的 元 素 被 随机 保留 以 创建 一 个 抽样 训练 数据 集 。 通 常 这 一 比例 系数 为 0.1 一 0. 5 之 间 的 一 
个 随机 数 。 原 评分 矩阵 中 的 这 一 比例 的 元 素 被 随机 选择 并 保留 下 来 。 重 复 这 一 过 程 ， 我 们 
将 得 到 gq 个 训练 数据 集 Ri…Ry 。 这 样 所 有 的 用 户 和 物品 都 会 在 这 g 个 二 次 抽样 矩阵 中 被 表 
现 出 来 ， 但 是 二 次 抽样 矩阵 中 元 素 的 数目 要 小 于 原 训 练 数 据 集中 元 素 的 数目 。 协 同 过 滤 算 
法 “〈 例 如 潜在 因子 模型 ) 会 被 应 用 于 每 一 个 评分 矩阵 来 产生 一 个 预测 和 矩阵。 最 终 的 预测 结 


O 重复 行 中 的 未 知 项 可 能 会 有 不 一 致 的 预测 ， 尽 管 这 一 现象 在 大 多 数 协同 过 滤 算 法 中 较为 少见 。 
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果 是 这 q 个 不 同 预测 评分 的 简单 平均 数 。 

在 前 文 提 到 的 方法 中 ， 集 成 系统 的 最 后 一 步 是 取 各 个 部 件 的 预测 评分 的 简单 平均 数 而 
不 是 加 权 平 均 数 。 这 样 做 的 原因 是 所 有 的 模型 部 件 都 是 使 用 等 概率 方法 创建 的 ， 因 此 应 当 
被 赋予 相同 的 权重 。 在 许多 这 类 情况 中 ,我 们 往往 会 选择 不 太 稳 定 的 基础 方法 来 获取 更 高 
的 性 能 。 

尽管 我 们 在 前 文 的 讨论 中 提供 了 若干 方差 缩减 方法 的 概述 ,但 是 在 实际 研究 领域 仅 有 
一 小 部 分 方法 被 开发 或 是 评估 。 例 如 ， 我 们 仍 未 发 现 关 于 二 次 抽样 方法 有 效 性 的 任何 实验 
性 结论 。 尽 管 在 分 类 领域 [658] 的 bagging 算法 中 ， 二 次 分 类 方法 经 常会 提供 很 好 的 结果 ， 
但 是 二 次 分 类 方法 在 协同 过 滤 系 统 中 处 理 稀 玖 矩阵 时 的 有 效 性 却 难以 预测 。 在 稀疏 矩阵 
中 ， 零 元 素 经 常会 导致 系统 根本 无 法 对 某 些 用 户 或 物品 进行 预测 ， 进 而 影响 整个 系统 的 运 
行 。 论 文 [67] 讨论 了 bagging 算法 在 协同 过 滤 系统 中 的 应 用 。 这 篇 论文 使 用 行 上 的 自 举 
抽样 方法 ， 并 且 对 元 余 行 进行 加 权 处 理 。 也 就 是 说 ， 这 种 方法 假设 基础 预测 方法 可 以 处 理 
加 权 行 。 正 如 论文 [67] 所 述 ， 尽 管 对 基础 预测 方法 的 选取 有 些 敏感 ，bagging 算法 仍然 
显著 地 降低 了 误差 。 值 得 注意 的 是 ,根据 论文 [67] 的 研究 结果 ， 除 了 分 解 近 邻 模型 [72] 
以 外 ，bagging 算法 提高 了 其 他 大 部 分 基础 预测 方法 的 准确 性 。bagging 算法 不 能 提高 分 解 
近邻 模型 的 准确 性 时 ， 这 也 许 是 由 于 在 使 用 基于 分 解 近邻 模型 时 各 个 bagged 模型 的 预测 
结果 之 间 的 相互 关联 性 所 导致 的 。 通 常 来 说 ， 我 们 更 倾向 于 将 低 偏差 高 方差 的 不 相关 的 基 
础 模型 进行 整合 ， 以 将 bagging 算法 的 优势 最 大 化 。 在 由 于 基础 预测 方法 之 间 高 度 的 相关 
而 使 bagging 算法 不 适用 的 情况 中 ， 我 们 可 以 使 用 随机 性 注入 算法 。 


6.3.3 随机 性 注入 算法 


随机 性 注入 算法 和 分 类 中 的 随机 森林 算法 有 很 多 相似 点 5 。 这 一 方法 的 基本 思想 是 
使 用 一 个 基础 分 类 器 ， 再 将 随机 性 注入 这 一 分 类 器 中 。 有 很 多 方法 可 以 被 用 于 随机 性 注 
人 人。 以 下 是 一 些 实例 [6 : 

1) 向 近邻 模 型 中 注入 随机 性 : 这 种 方法 并 没有 使 用 基于 用 户 或 基于 物品 的 近邻 模型 
中 的 前 个 最 近邻 用 户 或 者 物品 ， 而 是 选择 了 前 a* 个 最 近邻 元 素 ， 其 中 a1。 接 下 来 ， 
我 们 从 这 a， 上 个 最 近邻 元 素 中 随机 选择 & 个 元 素 。 这 种 方法 可 以 被 视 为 一 种 因子 为 1/a 
的 行 上 的 二 次 抽样 方法 的 一 种 间接 变形 。 这 种 方法 可 以 返回 各 个 集成 部 分 评分 的 平均 值 。 

2) 向 矩阵 分 解 模 型 中 注入 随机 性 : 矩阵 分 解 方法 从 本 质 上 来 说 是 随机 性 算法 ， 因 为 
这 种 方法 在 对 因素 矩阵 进行 随机 初始 化 后 ， 其 解 空 间 是 梯度 下 降 的 。 因 此 ， 选 择 的 初始 化 
方法 不 同 ， 获 得 的 结果 通常 也 不 同 。 将 这 些 不 同 的 解决 方案 组 合 起 来 通常 会 获得 更 加 准确 
的 结果 。 

通过 随机 化 集成 系统 ， 我 们 可 以 获得 不 同 集成 部 分 产生 推荐 结果 的 平均 值 。 与 随机 森 
林 相 似 ， 这 种 方法 可 以 减 小 集成 系统 的 方差 值 ， 而 不 对 偏差 值 产生 显著 影响 。 在 许多 情况 
中 ， 这 种 方法 在 bagging 算法 不 适用 的 情况 下 工作 得 很 好 ， 因 为 随机 化 集成 系统 在 各 个 预 
测 方法 之 间 建 立 了 更 高 级 的 关联 。 正 如 论文 [67] 所 示 ， 当 使 用 分 解 的 近邻 模型 作为 基础 
预测 方法 "时 ， 随 机 性 注入 方法 具有 很 高 的 效率 。 值 得 注意 的 是 ，bagging 算法 在 分 解 的 
近邻 模型 中 并 不 适用 。 


6.4 切换 型 混合 系统 
切换 型 混合 系统 通常 用 于 推荐 系统 的 模型 选择 (model selection) 问题 中 ， 但 是 它们 
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一 般 不 被 正式 地 认为 是 混合 系统 。 切 换 系统 的 最 初 目的 中 是 解决 冷 启动 问题 。 在 冷 启 动 
问题 中 ， 在 刚 开始 没有 足够 的 评分 可 用 时 ， 某 一 种 推荐 模型 会 工作 得 更 好 。 而 之 后 当 有 足 
够 的 评分 数据 可 以 获取 时 ， 另 一 种 推荐 模型 会 更 加 有 效 ， 这 时 推荐 策略 就 切换 至 这 一 
模型 。 

我 们 可 以 用 更 加 一 般 意义 上 的 模型 选择 来 看 待 模型 切换 。 例 如 ， 在 大 多 数 推荐 模型 的 
参数 选择 阶段 ， 这 种 模型 可 以 在 多 个 参数 值 之 间 运 行 以 选择 最 佳 参数 。 这 种 特定 形式 的 模 
型 选择 源 于 分 类 领域 ， 它 也 被 称 为 桶 模型 。 在 下 文中 ， 我 们 将 就 这 两 种 切换 型 混合 系统 进 
行 讨论 。 


6. 4. 1 为 解决 冷 启动 问题 的 切换 机 制 


切换 机 制 通常 被 用 于 解决 冷 启 动 问题 。 因 为 在 冷 启动 问题 中 ,往往 一 种 推荐 系统 在 评 
分 数据 少 的 时 候 表现 得 更 好 ， 而 另 一 种 在 评分 数据 多 时 更 好 。 在 仅 有 少量 评分 数据 可 用 
时 ,切换 系统 使 用 基于 知识 的 推荐 方法 ， 因 为 基于 知识 的 推荐 系统 不 依靠 任何 历史 评分 而 
仅 依靠 用 户 需 求 。 当 可 以 获取 更 多 的 评分 数据 时 ， 推 荐 策略 会 切换 至 协同 过 滤 推 荐 系统 。 
我 们 也 可 以 将 基于 内 容 的 推荐 系统 和 协同 推荐 系统 用 这 种 方法 组 合 起 来 ， 因 为 基于 内 容 的 
推荐 系统 在 有 新 物品 时 工作 得 更 好 ， 而 协同 推荐 系统 不 能 有 效 地 对 新 物品 做 出 推荐 。 

在 论文 [85] 中 提出 了 一 种 名 为 “Daily Leaner” 的 推荐 系统 。 在 这 种 系统 中 不 同 的 
推荐 方法 被 有 序 地 使 用 。 如 果 前 一 推荐 方法 没有 找到 足够 的 推荐 信息 ， 那 么 后 一 推荐 方法 
会 继续 进行 寻找 。 论 文 [85] 的 特点 是 使 用 了 两 次 基于 内 容 的 推荐 方法 和 一 次 协同 推荐 方 
法 。 推 荐 策略 首先 使 用 最 近邻 内 容 分 类 器 ， 紧 接着 使 用 协同 系统 ， 最 后 一 个 朴素 贝 叶 斯 分 
类 器 被 用 于 与 长 期 画像 进行 匹配 。 因 为 所 有 的 基础 学 习 算 法 都 需要 一 定 的 数据 ， 这 一 方法 
并 不 能 完全 解决 冷 启 动 问题 。 另 一 论文 [659] 将 各 种 混合 版 的 协同 系统 和 基于 知识 的 协 
同系 统 进行 组 合 。 在 冷 启动 过 程 中 ， 基 于 知识 的 系统 提供 更 多 的 准确 结果 ， 而 协同 系统 在 
之 后 的 阶段 提供 更 多 的 准确 结果 。 在 解决 冷 启动 问题 时 ， 将 基于 知识 的 系统 整合 起 来 通常 
会 得 到 更 加 理想 的 结果 。 


6.4.2 桶 模型 


在 这 种 方法 中 ， 一 定 比例 的 〈 例 如 25%~33%) 元 素 被 从 评分 矩阵 中 取出 ， 并 且 有 多 
种 模型 被 用 于 所 产生 的 矩阵 。 接 下 来 ， 这 些 取 出 的 元 素 被 用 于 计算 均 方 误差 (MSE) RE 
均 绝对 误差 (MAE) 等 参数 来 评估 这 一 模型 的 有 效 性 。 均 方 误差 或 平均 绝对 误差 最 小 的 
模型 被 用 作 相 关 模 型 。 这 一 方法 也 普遍 应 用 于 参数 调整 中 。 例 如 ， 每 一 个 模型 都 对 应 算法 
中 参数 的 一 个 不 同 的 值 ， 产 生 最 优 解 的 值 被 选 作 相关 值 。 一 旦 相关 模型 被 确定 ， 这 一 模型 
会 在 所 有 评分 矩阵 中 被 重新 训练 ， 并 且 返 回 推荐 结果 。 除 了 提取 方法 之 外 ， 另 一 种 广泛 应 
用 的 方法 被 称 作 交叉 确认 。 我 们 会 在 第 7 章 中 讨论 更 多 提取 技术 和 交叉 确认 技术 。 即 使 只 
有 当 不 同 的 模型 的 数据 来 源 不 同时 桶 模型 才 会 被 认为 是 集成 系统 ， 这 种 模型 仍然 是 推荐 系 
统 中 最 有 效 的 单一 集成 方法 。 当 桶 模型 被 用 于 动态 变化 的 评分 矩阵 中 时 ， 这 种 系统 可 以 从 
一 种 方法 转换 至 另 一 种 方法 。 当 被 用 于 静态 数据 时 ， 这 一 系统 可 以 被 看 作 是 加 权 型 推荐 方 
法 的 一 种 特殊 情况 。 在 这 种 情况 中 ， 一 个 成 分 的 权重 被 设 为 1， 其 余 成 分 的 权重 被 设 为 0。 


6.5 级 联 型 混合 系统 
在 Burke 的 原著 "1 中 ,级 联 型 混合 系统 被 以 狭义 的 方式 定义 ， 在 级 联 型 混合 系统 
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中 ， 每 一 个 推荐 方法 都 会 对 前 一 推荐 方法 产生 的 推荐 结果 进行 优化 。 这 里 我 们 给 出 级 联 型 
混合 系统 的 一 种 更 加 广义 的 定义 : 在 级 联 型 混合 系统 中 ， 每 一 个 推荐 系统 可 以 以 任意 方式 
(除了 只 进行 直接 优化 以 外 ) 使 用 前 一 个 推荐 系统 的 结果 ， 然 后 所 有 的 结果 被 整合 产生 最 
终 的 推荐 结果 。 这 一 广义 的 定义 包含 更 多 重要 的 混合 系统 ， 例 如 boosting 算法 。 相 应 地 ， 
我 们 定义 两 种 类 型 的 级 联 型 推荐 系统 。 


6.5.1 推荐 结果 的 逐步 优化 


在 这 种 方法 中 ， 推 荐 系统 依次 将 前 一 迭代 过 程 中 产生 的 结果 进行 优化 。 例 如 ， 第 一 个 
推荐 方法 排除 了 许多 潜在 项 并 提供 了 一 个 粗略 的 排名 。 接 下 来 第 二 层 的 推荐 方法 使 用 这 一 
排名 来 进一步 优化 排名 并 且 断 开 排名 中 的 并 列 关 系 。 最 终 的 排名 会 呈现 给 用 户 。 这 种 推荐 
系统 的 一 个 实例 是 EntreeCH2 。 它 首先 根据 用 户 提出 的 兴趣 信息 产生 一 个 粗略 的 排名 。 
接 下 来 推荐 结果 被 按照 大 致 相等 的 偏好 划分 到 不 同 的 桶 中 。 在 第 一 阶段 的 最 后 ， 同 一 桶 中 
的 不 同 推荐 信息 被 认为 是 并 列 的 。 协 同 过 滤 方 法 被 用 于 断 开 并 列 关 系 ， 然 后 对 每 一 个 桶 中 
的 推荐 信息 进行 评分 排列 。 最 先 使 用 的 基于 知识 的 推荐 方法 明显 被 赋予 更 高 的 优先 级 ， 因 
为 第 二 层 的 推荐 方法 不 能 改变 第 一 层 推荐 方法 所 产生 的 推荐 信息 。 换 句 话 说， 第 二 层 的 推 
荐 方法 更 加 有 效 ， 因 为 这 些 方法 只 需要 关注 每 一 个 桶 内 部 的 并 列 关 系 。 因 此 ， 第 二 层 的 推 
荐 方法 中 的 物品 空间 ， 即 桶 ， 就 会 小 得 多 了 。 


6.5.2 boosting 算法 


boosting 算法 已 经 被 广泛 地 应 用 在 分 类 [2?06] 和 回归 [202 分 析 中 。 最 早 的 boosting 算法 
之 一 是 AdaBoost 算法 [06] 。 这 一 算法 的 基于 回归 的 变形 被 称 为 AdaBoost. RTH], 。 这 一 
回归 变形 与 协同 过 滤 方 法 的 相关 性 更 强 ， 因 为 将 评分 视 为 数值 属性 会 使 得 分 析 过 程 更 加 简 
单 。 传 统 的 boosting 算法 通常 在 训练 循环 过 程 中 使 用 加 权 训练 样本 。 在 每 一 次 循环 中 ， 权 
重 都 会 根据 前 一 次 循环 中 分 类 器 的 表现 进行 修改 。 这 种 算法 的 特别 之 处 在 于 提高 错误 训练 
样本 的 权重 ， 而 降低 正确 分 类 样本 的 权重 。 这 样 分 类 器 就 会 偏向 于 将 前 一 循环 中 分 错 的 样 
本 进行 重点 训练 。 通 过 若干 次 这 样 的 循环 ， 我 们 可 以 获得 一 系列 的 分 类 模型 。 所 有 的 模型 
都 被 应 用 于 某 一 给 定 的 测试 实例 ， 并 且 把 返回 的 预测 结果 整合 起 来 得 到 一 个 加 权 的 预测 
结果 。 

为 了 适用 于 协同 过 滤 系 统 ，boosting 算法 需要 被 适当 地 修改 。 在 协同 过 滤 系 统 中 ， 训练 
行 和 测试 行 之 间 没 有 明显 的 界限 ， 自 变量 列 和 因 变 量 列 之 间 也 没有 明显 的 差别 。 论 文 L67] 
中 提出 了 一 种 将 boosting 算法 改进 以 适用 于 协同 过 滤 系 统 的 方法 。 与 分 类 和 回归 模型 中 权 
重 与 行 相关 不 同 ， 协 同 过 滤 中 的 训练 样本 权重 是 和 各 个 评分 相关 的 。 因 此 ， 如 果 集 合 SH 
示 训 练 数据 中 的 已 观测 评分 集 ， 则 共有 |S| 个 权重 。 需 要 注意 的 是 ，S 是 m Xn 评分 矩阵 
R 中 一 系列 位 置 u, j) 的 集合 ， 其 中 rwj 表示 被 观测 的 元 素 。 我 们 同样 假设 这 些 基础 协同 
过 滤 算 法 有 能 力 处 理 加 权 评 分 问题 ( 同 6. 3 节 相 比较 )。 在 每 一 次 迭代 过 程 中 ， 每 一 个 评 
分 所 对 应 的 权重 都 会 根据 协同 过 滤 算 法 预测 特定 元 素 的 准确 程度 被 加 以 修改 。 

整个 算法 共 使 用 工 次 迭代 循环 。 在 第 上 次 迭代 过 程 中 ， 评 分 矩阵 中 第 (wu, j 个 元 素 
所 对 应 的 权重 被 表示 为 W,(u，j)。 在 算法 开始 时 ， 各 个 元 素 被 赋予 相同 的 权重 。 接 下 来 ， 
算法 使 用 基准 模型 预测 所 有 的 评分 。 如 果 预 测评 分 rw 和 实际 评分 rw 之 间 的 差 值 不 小 于 预 
设 值 $， 那 么 对 于 集合 S 中 元 素 u, j) 的 预测 就 被 称 为 “错误 的 "。 第 1 次 迭代 过 程 中 的 
错误 率 e, 被 定义 为 集合 S 中 被 错误 预测 的 评分 所 占 的 比例 。 被 正确 预测 的 样本 的 权重 通过 








213 








[214] 


158 #6# 





FE he, ewe. i FR De FHL PEAS AL REAR AE. TER TERME, RRB IA 
一 化 使 其 求 和 为 1。 因 此， 被 错误 分 类 的 元 素 的 相关 (relative) 权重 总 是 随 着 迭代 而 增 
加 。 接 下 来 ， 在 权重 被 更 新 后 的 数据 上 再 一 次 使 用 基线 模型 。 这 一 迭代 过 程 重 复 了 次 ， 目 
的 是 为 未 知 元 素 产 生 T 个 不 同 的 预测 结果 。 这 工 个 不 同 预测 结果 的 加 权 平 均 数 被 作为 元 


素 的 最 终 预测 结果 ， 在 这 一 过 程 中 ， 第 :个 预测 值 的 权重 是 log (1 -Je 值得 注意 的 是 ， 论 


文 [67] 中 介绍 的 权重 更 新 和 模型 组 合法 则 与 分 类 和 回归 模型 中 的 法 则 有 一 些 不 同 。 但 是 在 
论文 [67] 之 外 ， 很 少 有 关于 使 用 boosting 算法 来 解决 协同 过 滤 问 题 的 研究 。 我 们 相信 L67] 
中 的 简单 推荐 策略 可 以 通过 实验 进一步 优化 。 

6. 5.2. 1 加 权 基 础 模型 

boosting 算法 和 bagging 算法 需要 使 用 加 权 基 础 模型 ， 其 中 每 一 个 元 素 有 与 其 关联 的 
权重 。 在 这 一 节 中 ， 我 们 将 展示 现 有 的 协同 过 滤 模 型 是 如 何 被 优化 以 适用 于 加 权 模型 的 。 

我 们 假设 权重 wn 与 评分 矩阵 中 代表 用 户 w 对 物品 & 的 评分 的 元 素 相对 应 。 一 种 相对 
直观 的 做 法 是 将 现 有 的 模型 加 以 改进 使 其 能 够 处 理 元 素 的 权重 : 

D 基于 近邻 的 算法 : 一 个 用 户 的 平均 评分 通过 用 加 权 的 方法 进行 计算 以 得 到 评分 的 
均值 中 心 。Pearson 相关 系数 和 余弦 函数 都 可 以 被 改进 以 将 权重 纳入 考虑 范围 。 因 此 ， 可 


以 对 第 2 章 的 公式 (2-2) 进行 如 下 改进 ， 来 计算 用 户 u WA v ZEK Pearson 相关 系数 。 
5 max{ Wuk vw} © (ruk — pu) © (re — po) 
Pearson(u,v) = io (6-6) 


Dd) wu (ru peu)? » Dr ipa)? 
kETNL, kETNL, 


读者 可 以 参考 第 2 章 2. 3 节 来 回顾 这 一 公式 的 详细 知识 。 另 一 种 2 优化 方法 如 下 : 
Wuk * Wir © (Tuk — pu) © (ree — po) 





kET I 
Bearer (vice) a ML (6-7) 
pe Wuk? CT uk te FO ° Py Wipe (rx — Yin) 
kET,NI, kET NI, 


对 于 物品 = 物品 相似 性 测度 ， 调 整 过 的 余弦 函数 可 以 用 类 似 的 方法 进行 改进 。 这 些 加 
权 相 似 性 测度 可 以 被 用 于 计算 最 近邻 或 者 对 等 组 中 的 加 权 平 均 评 分 数 。 

2) 潜在 因子 模型 : 潜在 因子 模型 被 定义 为 将 指定 元 素 的 误差 平方 和 最 小 化 的 最 优化 
问题 。 而 在 这 里 ， 我 们 需要 求解 误差 的 加 权 平方 和 的 最 小 值 的 最 优化 问题 。 因 此 , 第 3 章 
3. 6. 4. 2 节 中 的 目标 函数 可 以 被 修改 为 如 下 : 


Minimize J = > »» Wij eae ASS YZ ta P: (6-8) 


DES i=1s=1 Zis 
这 里 ， U=Cuy] 和 Y 一 [网 ] SEINE m Xk 用 户 - HEREA n XE 物品 - 因素 矩阵 。 需 要 
注意 这 个 公式 中 的 权重 是 与 矩阵 中 的 误差 相关 联 的 。 梯 度 下 降 法 也 需要 相应 地 调整 ， 即 对 
相关 更 新 进行 加 权 : 

Ug = Uig Taw * ej * Vg —A* Ug) 

Uj = Vjqg t+alwiy * ej * Wig —A* Vjq) 
许多 其 他 基础 协同 过 滤 算 法 都 可 以 被 修改 以 适用 于 加 权 模 型 。 这 些 加 权 基 础 算法 在 许多 协 
同 过 滤 集 成 系统 中 ， 例 如 boosting 算法 和 bagging 算法 等 ， 都 是 有 效 的 。 





© [67] 仅 提 出 了 第 一 种 计算 相似 度 的 方法 。 
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6.6 特征 放大 型 混合 系统 


特征 放大 型 混合 系统 与 分 类 中 的 堆 释 集成 方法 有 许多 相似 点 。 在 堆 释 算法 [I 中， 第 
一 层 的 分 类 器 被 用 于 为 第 二 层 的 分 类 器 产生 特征 或 者 放大 特征 。 在 大 部 分 情况 下 ， 特 征 放 
大 型 混合 系统 和 对 现 有 推荐 算法 的 集成 系统 一 样 使 用 。 但 是 在 另外 一 些 情况 中 ， 我 们 需要 
对 推荐 系统 部 件 做 出 一 些 改变 使 其 能 适用 于 修改 后 的 数据 ， 因 此 特征 放大 型 混合 系统 并 不 
是 真正 的 集成 系统 。 

Libra 系统 [8 将 亚马逊 微 网 站 的 推荐 系统 和 甚 自身 的 贝 叶 斯 分 类 器 相 结合 。 这 种 方 
法 使 用 亚马逊 生成 的 “相关 作者 ”和 “相关 标题 ”作为 描述 物品 的 特征 。 需 要 注意 的 是 ， 
亚马逊 使 用 协同 过 滤 系统 产生 这 些 推荐 信息 。 接 下 来 这 些 数据 与 基于 内 容 的 推荐 方法 共同 
作用 来 生成 最 终 的 预测 结果 。 从 原则 上 讲 ， 任 何 现 有 的 基于 内 容 的 系统 都 可 以 被 使 用 ， 因 
此 这 一 方法 可 以 被 看 作 是 一 种 集成 系统 。 [448] 选择 朴素 贝 叶 斯 文本 分 类 器 实现 这 一 过 
程 。 通 过 实验 发 现 ， 亚 马 逊 的 协同 过 滤 系 统 生成 的 特征 质量 很 高 ， 并 且 这 些 特 征 对 产生 更 
高 质量 的 推荐 信息 做 出 了 显著 贡献 。 

除了 首先 使 用 协同 系统 ,我们 也 可 以 首先 使 用 基于 内 容 的 系统 。 这 一 方法 的 基本 思想 
是 使 用 基于 内 容 的 系统 来 填充 评分 矩阵 中 的 未 知 元 素 ， 让 评分 矩阵 不 再 稀疏 。 换 句 话说 ， 
基于 内 容 的 系统 预测 评分 矩阵 中 的 未 知 元 素 以 产生 一 个 更 加 密集 的 和 矩阵。 这 些 新 加 入 的 评 
分 元 素 被 称 为 伪 评分 〈pseudo- rating)。 接 下 来 ， 协同 推荐 系统 凭借 密集 评分 矩阵 来 进行 
评分 预测 。 最 后 ， 协 同 预测 结果 和 基于 内 容 的 推荐 系统 产生 的 预测 结果 按 权重 组 合 起 来 ， 
构成 评分 矩阵 中 对 未 知 元 素 的 整体 预测 结果 "3 。 就 相似 度 计 算 来 说 ， 第 一 阶段 对 缺失 值 
的 填充 使 得 第 二 阶段 对 相似 度 的 计算 更 加 具有 健壮 性 。 然 而 ， 对 相似 度 的 计算 需要 进行 如 
下 调整 : 相 比 于 已 知 评分 ， 伪 评分 应 赋予 更 低 的 权重 。 这 是 因为 伪 评 分 是 由 大 致 估计 得 到 
的 ， 因 此 容易 出 错 。 

这 些 权重 是 如 何 被 确定 的 呢 ? 伪 评 分 的 权重 直观 地 表示 了 第 一 阶段 里 预测 的 确定 性 ， 
它 是 用 户 评 分 数量 | 天 | 的 一 个 递增 函数 。 若 干 启发 性 函数 被 用 于 为 评分 确定 权重 ， 读 者 可 
以 参考 [431] 获取 这 一 过 程 的 详细 知识 。 需 要 注意 的 是 ， 这 种 方法 需要 对 协同 过 滤 过 程 
的 第 二 阶段 加 以 改进 ， 并 且 现 有 的 算法 没有 能 够 被 使 用 的 。 这 些 模型 可 以 被 看 作 整 体式 设 
HAR. 

特征 放大 型 系统 在 推荐 系统 中 有 着 很 长 的 历史 。 特 征 放大 型 系统 的 最 早 实 例 之 一 是 
GroupLens 系统 [5526] 。 在 这 一 系统 中 ， 基 于 知识 的 推荐 系统 被 用 于 生成 一 个 人 工 评 分 的 数 
据 库 。 被 称 为 过 滤 机 器 人 的 代理 模仿 人 类 用 户 的 行为 ， 使 用 一 些 例如 拼写 错误 的 个 数 或 者 
信息 长 短 等 特殊 规范 来 为 各 个 物品 评分 。 随 后 ， 这 些 评 分 被 用 在 协同 过 滤 系 统 中 来 产生 推 
荐 结果 。 


6.7 元 级 型 混合 系统 


在 元 级 型 混合 系统 中 ， 由 前 一 推荐 方法 学 习 得 到 的 模型 被 用 作 下 一 层 的 推荐 方法 的 输 
入 。Pazzani 的 一 篇 早期 论文 [475] 介绍 了 通过 内 容 的 协同 方法 的 一 个 重要 实例 。 这 一 实 
例 构建 了 一 个 基于 内 容 的 模型 G3] 来 描述 对 和 餐馆 进行 预测 所 需 的 差异 性 特征 。 这 些 差 异性 
特征 可 以 通过 第 4 章 4. 3 节 介 绍 的 任何 一 种 特征 选择 方法 进行 确定 。 每 一 个 用 户 被 表示 成 
一 个 差异 性 关键 词 的 向 量 。 一 个 餐馆 推荐 系统 的 用 户 一 关键 词 的 矩阵 示例 如 下 : 
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<A 牛肉 a 羊肉 元 的 鸡蛋 
Sayani ins 0 3 0 | 2.5 Liz 
John 2.3 1.3 02 wa kl 
Mary 0 2.8 0.9 1a 2.6 
Peter 2.4 h 本 0 3.5 1.9 
Jack 1.6 2.2 Be 1 1.0 0 




















上 面 表格 中 的 权重 值 可 以 根据 自己 已 访问 物品 的 描述 信息 来 获取 。 注 意 ， 无 关 的 词 已 
经 被 移 除 了 。 因 为 在 第 一 阶段 ， 基 于 内 容 的 特征 选择 方法 已 经 为 每 一 个 用 户 创建 了 一 个 差 
异性 向 量 空间 表示 。 这 种 表示 法 比 一 般 的 评分 矩阵 更 加 密集 。 因 此 我 们 可 以 使 用 这 种 新 的 
表示 方法 计算 用 户 之 间 的 相似 度 ， 来 获得 一 个 更 加 具有 健壮 性 的 结果 。 这 种 方法 的 中 心思 
想 是 使 用 基于 内 容 的 对 等 组 来 确定 目标 用 户 中 相似 度 最 大 的 用 户 。 一 旦 对 等 组 被 确定 下 
来 ， 各 个 对 等 组 评分 的 加 权 平均 数 就 被 用 于 确定 预测 评分 。 请 注意 ， 这 种 方法 需要 对 原始 
的 协同 推荐 系统 进行 一 定 的 改进 (至 少 在 相似 度 计 算 这 一 问题 上 )。 协 同系 统 中 两 个 阶段 
都 使 用 了 相同 的 和 矩阵， 而 对 等 组 的 形成 必须 使 用 用 户 一 关键 词 矩 阵 〈 即 第 一 阶段 创建 的 模 
型 )， 而 最 后 一 个 推荐 方法 需要 使 用 评分 和 矩阵。 而且 ， 这 种 方法 的 第 一 阶段 不 能 完整 地 使 
用 现 有 的 基于 内 容 的 模型 ， 因 为 这 一 阶段 主要 是 特征 选择 〈 预 处 理 ) 阶段 。 因 此 ， 在 许多 
情况 中 ， 这 些 系统 不 能 被 认为 是 真正 的 集成 系统 ， 因 为 这 些 系统 不 能 直接 使 用 现 有 的 推荐 
方法 。 

元 级 型 混合 系统 的 另 一 个 实例 是 LaboUr 系统 [5584 。 在 该 系统 中 ， 基 于 案例 的 模型 被 
用 于 学 习 基 于 内 容 的 用 户 画像 。 接 下 来 ， 用户 画 像 基 于 协同 方法 进行 比较 。 这 些 模型 进行 
跨 用 户 比 较 来 实现 预测 。 这 些 方 法 中 的 大 部 分 都 属于 前 文 提 到 的 通过 内 容 的 协同 推荐 策 
略 ， 然 而 这 并 不 是 建立 混合 推荐 系统 的 唯一 方法 。 


6.8 特征 组 合 型 混合 系统 


特征 组 合 型 混合 系统 的 基本 思想 是 在 应 用 推荐 算法 之 前 ， 将 来 自若 干 来 源 〈 例 如 基于 
内 容 或 者 协同 ) 的 输入 数据 整合 成 一 种 统一 的 表示 方法 。 大 多 数 情 况 使 用 的 推荐 算法 是 一 
种 使 用 协同 信息 作为 附加 特征 的 基于 内 容 的 算法 。L69] 介绍 了 这 种 方法 的 一 个 实例 。 这 
一 实例 将 RIPPER 过 滤器 应 用 于 增 广 数据 集 。[69] 表明 在 纯粹 的 协同 方法 上 能 显著 地 提 
高 算法 有 效 性 ， 但 是 需要 精细 地 选择 内 容 特征 来 达到 这 一 结果 。 也 就 是 说 ， 这 种 方法 对 数 
据 集 的 挑选 和 特征 的 表示 非常 敏感 。 这 种 方法 减少 了 系统 对 于 已 对 物品 做 出 评价 的 用 户 数 
量 的 敏感 性 。 当 然 ， 任 何 一 种 基于 内 容 的 系统 都 具有 以 下 性 质 : 对 于 有 新 物品 加 入 的 冷 启 
动 问题 具有 健壮 性 。 

需要 注意 的 是 ， 组 合 过 程 可 以 根据 不 同 种 类 的 背景 知识 以 不 同 的 方法 进行 。 例 如 ， 考 
虑 以 下 情况 : 每 一 个 物品 都 和 一 个 更 高 层次 的 代表 物品 类 型 的 分 类 法 相 联 系 。 用 户 和 物品 
的 画像 可 以 被 按照 层次 体系 中 的 相关 类 型 进行 扩展 。 接 下 来 ， 评 分 矩阵 通过 这 些 相关 类 型 
而 不 是 物品 的 信息 来 建立 。 在 稀 玻 矩阵 中 ， 这 种 方法 可 以 提供 更 加 有 效 的 结果 ， 因 为 它 减 
少 了 列 的 个 数 ， 并 且 在 压缩 矩阵 中 大 多 数 元 素 都 已 被 填充 。 

另 一 种 方法 是 将 评分 和 矩阵 进行 扩展 ， 并 且 将 物品 之 外 的 关键 词 作为 列 填充 人 矩阵 中 。 
这 样 原来 的 评分 矩阵 就 变 成 了 一 个 mX atd) WERE, n 代表 物品 个 数 ，a 代表 关键 词 个 
数 。“ 关 键 词 物 品 ” 的 权重 是 将 用 户 获 得 、 购 买 或 评分 的 物品 的 描述 进行 加 权 整 合 得 到 的 。 


SS an on) ee a 
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传统 的 近邻 方法 和 和 矩阵 分 解 方法 都 适用 于 这 一 扩充 矩阵 。 我 们 可 以 通过 使 用 交叉 确认 方法 
进行 学 习 来 获得 物品 行 和 关键 词 行 之 间 的 相关 权重 (具体 方法 参考 第 7 章 )。 这 种 将 两 种 
最 佳 模型 组 合 起 来 的 方法 在 混合 设置 中 很 常见 ， 以 参数 向 量 9 为 自 变 量 的 目标 函数 建立 
如 下 : 

= CollaborativeObject(0) + 8 ContentObjective(0) + Regularization (6-9) 
EP RAR EASA ey A 0 E A he BO A. — AE BERE Bh Ae E K EE — AL 
方法 (参考 第 2 2.6.5 节 ) 将 在 下 文 作为 一 种 特殊 实例 加 以 讨论 。 


6. 8. 1 回归 分 析 和 矩阵 分 解 


& RA m Xn 的 隐 式 反馈 评分 矩阵 ，C 为 一 个 d Xn 的 内 容 和 矩阵 。 在 这 一 内 容 矩 
阵 中 ,每 一 个 物品 都 被 4 个 关键 词 的 非 负 频率 加 以 描述 。 样 本 包含 物品 的 介绍 或 者 物品 的 
简要 反馈 。R 是 一 个 隐 式 反馈 和 矩阵， 所 以 我 们 可 以 将 未 知 元 素 的 值 设 为 0。 正如 在 2.6.5 
节 中 讨论 过 的 ， 令 W 为 一 个 nXn 的 物品 一 物品 系数 矩阵 ， 其 中 的 评分 通过 公式 R 一 RW 进 
行 预测 。 但 是 ， 在 这 种 情况 中 ,我 们 也 可 以 将 评分 预测 为 及 =CW。 因 此 ， 除 了 仅 使 用 
| R-RW 1? 进行 优化 之 外 ， 我们 也 加 入 了 一 个 附加 的 基于 内 容 的 部 分 R 一 CW *。 加 入 
了 弹性 网 正则 化 方法 和 对 角 线 非 负 约束 条 件 的 改进 最 优 模 型 [85 可 以 被 写 为 如 下 形式 : 

Minimize J= || R— RW ||? +8. | R— CW ||? +a- IW]? +à < IW lli 

满足 : 

w>0 

Diagonal(W) = 0 
权重 参数 TUATS EEKE. RAT WAR=RW 或 及 = 二 CW 进行 评分 预测 ， 
我 们 在 这 里 只 使 用 前 一 种 预测 函数 ，|] R— CW | * 仅 作为 附加 的 正则 化 项 对 目标 函数 进行 
调整 。 换 句 话说， 这 一 附加 项 的 目的 是 为 了 提高 模型 预测 用 户 未 来 行为 和 未 知行 为 的 泛 化 
能 力 。[456]」 讨论 了 这 种 基础 目标 函数 的 一 些 变形 。 

这 种 方法 可 以 被 用 于 将 任何 类 型 的 协同 过 滤 最 优 模型 与 基于 内 容 的 方法 整合 起 来 。 例 
如 ， 在 矩阵 分 解 中 ， 我 们 可 以 使 用 一 个 4Xn 的 用 户 因 子 和 矩阵 UU， 一 个 共享 物品 因子 矩阵 
和 一 个 内 容 因子 矩阵 来 建立 如 下 的 一 个 最 优 模 型 5557] : 

Minimize J = || R—UV™ ||\?+ 8+ ||C—ZvV™ ||? +ac |lU ||? +1 Y ealz 
需要 注意 的 是 ， 物 品 因子 矩阵 Y 在 评分 矩阵 和 内 容 和 矩阵 的 因子 分 解 过 程 中 被 共用 。 这 种 共 
用 和 矩阵 分 解 模 型 也 被 用 于 合并 其 他 种 类 的 辅助 信息 ， 例 如 社交 信任 度数 据 (参考 第 11 章 
11.3.8 节 )。 第 3 章 3.7.7 节 对 任意 模型 下 的 组 合 矩 阵 分 解 方法 进行 了 综述 。 


6.8.2 元 级 特征 


在 很 多 推荐 系统 〈 例 如 基于 内 容 的 系统 和 协同 系统 ) 中 没有 必要 使 用 特征 组 合 方法 。 
新 的 元 级 特征 可 以 从 特定 种 类 的 推荐 系统 的 特征 中 提取 ， 并 且 接 下 来 被 整合 进 集 成 模型 
中 。 例 如 ,我 们 可 以 将 元 级 特征 从 一 个 与 若干 用 户 和 物品 提供 的 评分 的 数量 相对 应 的 评分 
和 矩阵 中 提取 出 来 。 当 一 个 用 户 将 许多 电影 进行 评分 ， 或 者 当 一 部 电影 被 许多 用 户 打 分 时 ， 
不 同 推荐 算法 产生 的 推荐 信息 准确 性 会 被 影响 。 不 同 推荐 系统 对 这 些 特 征 的 敏感 程度 不 
同 ， 因 此 对 于 不 同 用 户 和 物品 的 预测 效果 也 不 同 。 元 级 特征 的 基本 思想 是 在 模型 组 合 过 程 
中 使 用 元 级 特征 对 这 些 元 素 特 化 的 差异 做 出 解释 。 生 成 的 元 级 特征 可 以 与 其 他 集成 算法 配 
对 来 创建 一 种 集成 式 设计 方法 ， 这 种 设计 方法 包含 了 各 种 混合 系统 的 特征 ， 但 是 又 不 完全 
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属于 Burke 对 于 混合 系统 的 7 种 分 类 [37] 。 但 是 ， 这 种 集成 方法 在 使 用 评分 对 元 级 特征 进 
行 组 合 这 一 特点 上 与 特征 组 合 型 混合 系统 紧密 相关 。 

元 级 特征 方法 已 经 被 证 明 是 集成 式 设计 中 的 一 种 很 有 潜力 的 高 效 方法 。 实 际 上 ，Net- 
flix 大 奖 赛 中 的 两 种 胜出 方法 ， 即 Bellkor’s Pragmatic Chaos'*!!] 和 The Ensemble!”*! 都 
使 用 了 这 一 方法 。 接 下 来 将 会 介绍 元 级 特征 模型 在 协同 过 滤 算 法 中 的 应 用 。 我 们 将 会 着 重 
讨论 特征 加 权 线 型 堆 过 (feature weighted linear stacking) MRE“), MATH HR 
征 和 6. 3 节 讨 论 过 的 堆 释 算法 相 结合 。 这 一 方法 基于 The Ensemble!” PAIRARA. H 
了 加 以 说 明 ， 表 6-1 HEHE TO SE Netflix 大 奖 赛 数 据 集 ， 在 堆 番 过 程 中 使 用 的 部 分 元 级 
特征 。 左 栏 中 的 序号 和 论文 [554] 中 的 序号 相 一 致 。 这 些 特征 十 分 具有 启发 意义 ， 因 为 
我 们 通常 可 以 为 其 他 评分 数据 集 提取 相似 的 特征 。 需 要 注意 的 是 ， 表 6-1 中 的 每 一 个 特征 
都 与 评分 矩阵 中 的 一 个 元 素 相 对 应 。 

表 6-1 [554] 中 用 于 集成 组 合 的 基于 Netflix 大 奖 赛 数据 集 的 元 级 特征 子 集 
ID 描 述 
常数 1( 仅 使 用 这 一 特征 相当 于 使 用 6. 3 节 中 的 全 局 线性 回归 模型 





























1 
2 表示 用 户 是 否 在 某 一 特定 日 期 对 3 部 以 上 电影 打分 的 二 进 制 变量 
3 电影 被 评分 次 数 的 对 数值 
4 用 户 对 电影 打分 的 不 同日 期 的 个 数 的 对 数值 
5 电影 平均 评分 的 贝 叶 斯 估计 值 减 去 用 户 的 贝 叶 斯 估计 平均 值 
6 用 户 评分 次 数 的 对 数值 

16 用 户 评分 的 标准 偏差 

17 电影 评分 的 标准 偏差 

18 (评分 日 期 一 第 一 个 用 户 评分 日 期 十 1) 的 对 数值 

19 ( 某 一 日 期 用 户 评分 数 十 1) 的 对 数值 


我 们 假设 一 共 获 取 了 /个 元 级 特征 (数值 型 );， 并 且 它 们 与 用 户 一 物品 对 Cu, t) 相对 
应 的 值 分 别 为 z?…zY 。 这 样 评分 矩阵 中 的 每 一 个 元 素 (Cu, D 都 有 特定 的 元 级 特征 与 其 相 
对 。 但 是 有 时 虽然 用 户 序号 u 或 者 物品 序号 t 的 值 不 同 ， 元 级 特征 也 可 能 为 相同 的 值 。 例 
如 ， 表 6-1 中 的 特征 3 不随 用 户 序号 的 改变 而 改变 ， 却 会 因 物 品 序号 t 的 改变 而 改变 。 

我 们 假设 共有 q 种 基础 推荐 方法 ， 并 且 这 a 种 推荐 方法 的 权重 分 别 为 w1…wws。 接 下 
来 ， 对 于 评分 矩阵 中 的 一 个 给 定 元 素 (x, t), ME g 个 集成 部 分 的 预测 评分 分 别 为 7 … 
74,， 那 么 整体 集成 系统 的 预测 结果 7w 如 下 : 


q 
te = >) with, (6-10) 


i=] 

我 们 希望 集成 系统 的 估计 预测 评分 rw 与 观测 评分 rw 尽 可 能 趋 近 。6. 3 节 中 使 用 了 线性 回 
归 模 型 来 学 习 获 得 权重 wi…wws。 在 训练 g 个 模型 时 ， 首 先 提 取出 确定 比例 的 元 素 ， 接 下 
来 在 线性 回归 模型 中 使 用 取出 的 元 素 作 为 观测 值 来 进行 学 习 。 这 一 方法 是 纯粹 的 堆 和 至 算 
法 ， 并且 可 以 被 认为 是 加 权 混 合 模型 。 但 是 ,我 们 可 以 使 用 元 特征 方法 对 这 种 方法 进一步 
优化 。 这 种 做 法 的 主要 思想 是 线性 回归 权重 tl…xog 与 评分 矩阵 中 的 每 一 个 元 素 相 对 应 ， 
并 且 这 些 权重 都 是 元 特征 方法 的 线性 函数 。 换 名 话说 ， 这 里 的 权重 需要 用 (u, t) 作为 上 
标 来 解释 它们 与 评分 和 矩阵 中 的 元 素 Cu, 0) 相对 应 : 


q 
Fae = Dy Weng (6-11) 
i=l 
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这 是 一 个 更 进一步 优化 的 模型 ， 因 为 其 组 合 是 对 评分 矩阵 中 的 每 一 个 元 素来 说 ， 而 不 能 言 
目地 推广 到 整个 矩阵 中 。 这 种 方法 存在 的 问题 是 参数 好 的 数量 mXnXg 过 大 ， 导 致 不 能 
健壮 地 学 习 。 实际 上 ， WE) 参数 的 数量 会 比 已 知 评分 的 数量 多 ， 这 也 会 导致 过 拟 合 现 
象 的 发 生 。 假 设 这 些 元 特征 为 每 个 用 户 -物品 组 合 调节 了 各 个 模型 之 间 的 相对 重要 性 ， 那 
么 这 些 权重 就 可 以 被 视 为 元 特征 的 线性 组 合 。 这 里 我 们 引入 参数 几 来 调控 第 7 个 元 特征 对 
第 ; 个 模型 的 重要 程度 。 这 样 元 素 u, t) 的 权重 可 以 表示 为 元 素 (Cu, t) 的 元 特征 值 的 线 
性 组 合 ， 如 下 所 示 : 


l 
we = b Uy Zp (6-12) 


j=l 
我 们 现在 可 以 用 更 少 QXD 的 参数 vi 来 表示 回归 模型 问题 。 这 里 vi 调控 第 j 个 元 特征 对 
于 第 i 个 集成 模型 的 相对 重要 性 的 影响 。 将 公式 (6- 12) 中 的 wr 带 入 公式 (6-11) 中 ， 
我 们 可 以 得 到 总 集成 评分 和 各 部 件 评分 之 间 的 关系 ， 如 下 所 示 : 


二 (6-13) 
需要 注意 的 是 ， 这 仍然 是 一 个 gqXi 个 系数 的 线性 回归 问题 ， 其 中 系数 个 数 与 vi 相 一 致 。 
我 们 可 以 使 用 标准 最 小 二 乘 模型 对 取出 的 9 评分 元 素 进 行 学 习 以 获得 vi 的 值 。 这 一 回归 模 
型 的 自 变量 由 党 六 定量 给 出 。 我 们 可 以 加 入 限制 条 件 来 减 小 过 拟 合 情 况 的 发 生 概 率 。 在 
使 用 线性 回归 方法 得 到 权重 之 后 ， 集 成 系统 中 的 各 个 独立 模型 使 用 从 完整 训练 集中 去 除 已 
取出 元 素 的 训练 集 重新 进行 训练 。 使 用 取出 元 素 集 进行 训练 得 到 的 权重 与 这 9 个 模型 协同 
使 用 。 


6.9 交叉 型 混合 系统 


交叉 型 混合 推荐 系统 的 主要 特征 是 在 用 户 交互 界面 将 来 源 于 不 同 推荐 系统 的 评分 组 合 
在 一 起 进行 呈现 ， 而 不 是 将 预测 评分 进行 组 合 。 在 许多 情况 中 ， 每 个 推荐 系统 得 分 最 高 的 
物品 被 逐个 呈现 给 用 户 21 23] 。 因 此 ， 这 一 系统 的 主要 区 分 性 特征 是 : 在 呈现 阶段 进行 整 
合 ， 而 不 是 将 预测 评分 进行 整合 。 

其 他 大 多 数 混合 系统 专注 于 创建 一 个 从 若干 推荐 系统 中 提取 出 来 的 统一 的 评分 。 在 
[559] 介绍 的 典型 例子 中 ， 交 叉 型 混合 系统 创建 了 一 个 个 性 化 电视 节目 单 。 典 型 地 ， 一 个 
复合 (composite) 节目 安排 被 呈现 给 用 户 。 这 一 复合 节目 安排 是 通过 将 不 同系 统 推荐 的 
物品 组 合 在 一 起 创建 的 。 虽然 交叉 型 混合 系统 的 适用 性 远 不 止 这 些 场景 ， 这 种 复合 节目 安 
排 仍然 是 交叉 型 混合 系统 的 最 典型 应 用 。 交 叉 型 混合 系统 的 基本 思想 是 : 推荐 结果 是 对 一 
个 相对 复杂 的 包含 许多 成 分 的 物品 做 出 的 ， 并 且 推 荐 其 中 的 某 个 独立 物品 是 无 意义 的 。 通 
过 使 用 交叉 型 推荐 系统 ， 有 新 物品 加 入 的 冷 启动 问题 的 难度 会 减轻 。 电 视 节 目 安排 由 许多 
档期 构成 ， 基 于 内 容 的 推荐 系统 和 协同 推荐 系统 都 可 以 将 节目 填充 和 人 不同 档期 中 。 在 一 些 
情况 中 ， 特 别 是 初期 缺乏 可 用 数据 时 ， 不 同 种 类 的 多 种 推荐 系统 就 可 以 为 这 些 档期 产生 足 
够 的 推荐 信息 。 但 是 ， 在 一 些 情况 中 我 们 需要 使 用 冲突 解决 方法 来 处 理 可 用 节目 选项 数量 
大 于 可 用 档期 数量 等 问题 。 

交叉 型 推荐 系统 的 另 一 个 应 用 是 旅游 业 "%0'%。 这 种 方法 将 推荐 结果 分 为 若干 集合 ， 


© 在 Netflix 大奖 赛 中 ， 这 一 过 程 通过 使 用 被 称 为 试探 集 (probe set) 的 数据 集 来 完成 。 接 下 来 这 一 特殊 数据 集 
没有 被 用 于 建立 集成 模型 。 
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每 一 个 集合 都 包含 多 种 类 型 的 物品 。 例 如 ， 在 旅游 业 推荐 系统 中 ， 物 品 的 类 型 包括 住处 、 
休闲 活动 、 飞 机 票 ， 等 等 。 在 旅行 过 程 中 ， 旅 行者 会 消费 不 同类 型 的 物品 集合 。 对 不 同类 
型 的 物品 会 采用 不 同 的 推荐 系统 。 比 如 ， 最 适合 推荐 住处 的 推荐 系统 也 许 不 是 最 适合 推荐 
观光 的 推荐 系统 。 因 此 ， 对 每 一 种 不 同 的 分 类 都 对 应 了 一 种 不 同 的 推荐 系统 。 而 且 ， 我 们 
需要 着 重 分 析 来 自 相 互 独立 分 类 的 物品 来 做 出 一 个 相互 协调 的 推荐 集合 。 例 如 ， 如 果 旅 行 
者 被 推荐 了 一 项 距离 他 住处 很 远 的 观光 活动 ， 那 么 整个 推荐 结果 对 于 他 来 说 就 是 不 方便 
的 。 因 此 ， 在 整合 过 程 中 ,我 们 加 入 一 个 包含 一 系列 域 约 东 条 件 的 知识 库 来 解决 这 些 冲 
突 。 这 些 约束 条 件 被 用 于 解决 结果 域 中 的 了 矛盾。 约束 满足 问题 被 用 于 确定 一 个 相互 协调 的 
组 合 结果 。 想 获取 这 一 方法 的 更 多 细节 可 以 参考 [660，661] 。 

值得 注意 的 是 ， 大 部 分 交叉 型 混合 系统 经 常 和 基于 知识 的 推荐 系统 共同 使 用 [31.560]。 
这 并 不 是 巧合 。 交 叉 型 混合 系统 通常 被 设计 使 用 多 个 组 成 部 分 ， 例 如 基于 知识 的 推荐 系 
统 ， 解 决 复杂 产品 领域 问题 。 


6.10 小结 


混合 推荐 系统 则 在 利用 多 数据 源 信息 做 出 推荐 ， 或 者 用 于 提高 现 有 推荐 系统 在 特定 数 
据 模式 下 的 性 能 。 建 立 混合 推荐 系统 的 一 个 重要 原因 是 不 同 种 类 的 推荐 系统 ,例如 协同 系 
统 、 基 于 内 容 的 系统 、 基 于 知识 的 系统 等 都 有 着 不 同 的 优势 和 弱点 。 一 些 推 荐 系统 在 处 理 
冷 启动 问题 时 更 加 有 效 ， 而 其 他 一 些 系统 则 在 可 以 获取 足够 数据 时 具有 更 高 的 效率 。 混 合 
推荐 系统 试图 利用 这 些 系 统 的 互补 优势 来 创建 一 个 具有 更 高 整体 健壮 性 的 系统 。 

集成 式 推荐 方法 同样 被 用 于 提高 协同 过 滤 方 法 的 准确 度 。 在 协同 过 滤 方 法 中 ， 多 个 部 
分 使 用 相同 的 评分 矩阵 。 在 这 些 情 况 中 ， 各 个 模型 使 用 相同 的 基础 数据 而 不 是 源 自 不 同 来 
源 的 数据 。 这 些 方法 和 分 类 领域 集成 分 析 的 现 有 思想 十 分 相似 。 其 基本 思想 是 使 用 若干 模 
型 来 整合 差异 并 且 减 少 模型 偏差 。 许 多 分 类 领域 对 于 偏差 -方差 平衡 问题 的 现 有 理论 成 果 
同样 适用 于 协同 过 滤 应 用 中 。 因 此 ， 许 多 技术 ， 例 如 bagging 算法 和 boosting 算法 ， 也 可 
以 在 相对 较 小 的 修改 后 被 应 用 于 协同 系统 中 。 

混合 推荐 系统 分 为 整体 式 系统 、 集 成 式 系统 和 交叉 式 系统 。 集 成 式 系 统 的 典型 设计 方 
法 是 使 用 流水 线 型 或 者 并 行 型 推荐 系统 。 在 整体 式 设计 中 ， 无 论 是 将 现 有 推荐 系统 进行 改 
进 ， 还 是 创建 全 新 的 推荐 系统 ， 都 需要 将 来 源 于 多 种 数据 形态 的 特征 组 合 在 一 起 。 在 交叉 
式 系统 中 ， 若 干 推荐 引擎 产生 的 推荐 信息 被 同时 呈现 在 用 户 面 前 。 在 许多 情况 中 ， 元 特征 
也 可 以 从 一 个 特定 的 数据 形态 中 提取 出 来 ， 并 用 于 将 若干 推荐 系统 产生 的 预测 以 元 素 特 化 
的 形式 整合 起 来 。 混 合 系统 和 集成 系统 的 最 大 优势 在 于 这 两 种 系统 可 以 利用 不 同系 统 之 间 
的 长 处 互补 。Netflix 大 奖 赛 中 的 所 有 顶尖 方法 都 是 集成 系统 。 


6. 11 相关 工作 


尽管 混合 系统 在 推荐 系统 的 发 展 过 程 中 有 着 悠久 且 丰 富 的 历史 , 但 是 直到 Burke 的 研 
究 吕 面世 ， 这 些 方法 才 得 到 了 一 个 正式 的 分 类 。[118] 介绍 了 特定 网 络 环境 中 的 混合 推 
荐 系统 。 最 初 ，Burke 将 推荐 系统 分 为 七 类 。 随 后 ，Jannach 等 人 ?7 引 创 建 了 一 种 更 高 层次 
的 分 类 方法 ， 将 这 些 较 低层 次 的 分 类 方法 分 为 流水 线 型 系统 和 并 行 型 系统 。 这 本 书 中 的 分 
层 分 类 方法 大 致 遵循 了 [275] 和 [117] 中 的 思路 ， 但 是 仍然 做 出 了 一 些 变动 来 将 若干 重 
要 的 方法 ， 例 如 boosting 算法 ， 包 含 进 了 这 种 分 类 方法 中 。 值 得 注意 的 是 ， 这 种 分 类 方法 
并 不 详尽 ， 因 为 许多 集成 系统 ， 例 如 Netflix 大 奖 赛 中 的 胜出 方法 ， 都 利用 了 许多 种 混合 
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RARR. BAW, Burke 的 初始 分 类 方法 仍然 十 分 具有 启发 意义 ， 因 为 这 种 分 类 法 
涵盖 了 混合 系统 中 大 多 数 重 要 的 组 成 模块 。 特 别 是 最 近 两 种 使 用 了 集成 系统 的 模 
型 B11, WZ Netflix 大 奖 赛 中 胜出 之 后 ， 集 成 方法 得 到 了 更 加 广泛 的 关注 。 

集成 方法 已 经 在 分 类 领域 得 到 了 广泛 应 用 。[L22] 详细 讨论 了 分 类 问题 中 偏差 -方差 问 
题 。L111-113] 介绍 了 分 类 中 的 bagging 算法 和 二 次 分 类 方法 。 一 篇 最 近 的 论文 [67] 展 
示 了 通过 改进 例如 bagging 算法 和 AdaBoost. RT 算法 等 方法 , 我 们 可 以 将 分 类 领域 的 集 
成 方法 应 用 在 推荐 系统 中 。 除 了 一 些 基 于 这 种 思想 发 展 的 集成 系统 ， 其 他 一 些 系 统 组 合 了 
不 同 数据 类 型 的 优点 。 加 权 模 型 是 最 常见 的 模型 类 型 之 一 。 一 些 模型 将 建立 在 同 种 数据 类 
型 上 的 模型 组 合 起 来 。 论 文 167, 266] 讨论 了 建立 同 构 加 权 集 成 系统 的 方法 。Netflix 大 
奖 赛 的 获胜 方法 327 史 同 样 使 用 了 加 权 集 成 系统 ， 但 在 组 合 过 程 中 使 用 了 额外 的 元 特征 ， 
使 得 集成 系统 结合 了 一 些 特 征 组 合 方法 的 性 质 。[180] 讨论 了 不 同 参数 设 定 下 的 最 大 间隔 
矩阵 分 解 方法 中 的 集成 方法 。[338] 将 基于 用 户 和 基于 物品 的 近邻 算法 加 以 组 合 。 其 他 一 
些 研 究 加 权 模 型 的 论文 展示 了 如 何 组 合 构建 于 不 同 数据 类 型 上 的 系统 。[659] 将 协同 推荐 
方法 和 基于 知识 的 推荐 方法 加 以 组 合 。[162] 将 基于 内 容 的 推荐 系统 和 协同 推荐 系统 加 以 
组 合 。 

[601] 讨论 了 一 种 基于 性 能 的 切换 型 混合 系统 。[610] 介绍 了 一 种 有 趣 的 基于 机 器 学 
习 的 切换 机 制 。 其 他 解决 冷 启动 问题 的 转换 方法 在 [85] 中 得 到 了 讨论 。[659] 探讨 了 另 
一 种 产生 切换 型 混合 系统 的 基于 知识 的 系统 和 协同 系统 的 组 合 。 

级 联 型 系统 将 评分 按照 顺序 进行 处 理 来 做 推荐 ， 这 种 系统 或 者 使 用 求 精 方法 ， 或 者 使 


用 boosting 算法 。EntreeC 推荐 系统 中] 是 级 联 型 系统 使 用 求 精 方法 的 一 个 最 著名 的 实例 。. 


[67] 中 讨论 了 使 用 boosting 算法 的 级 联 型 系统 。 后 者 使 用 一 个 AdaBoost. RT 算法 的 加 权 
版 本 来 产生 混合 推荐 信息 。 

特征 放大 型 混合 系统 使 用 一 种 推荐 系统 来 放大 另 一 推荐 系统 的 特征 。Libra 系统 Fetal 
组 合 了 亚马逊 的 推荐 系统 和 其 自身 的 贝 叶 斯 分 类 器 。 亚 马 逊 系统 的 输出 被 用 于 创建 一 个 基 
于 内 容 的 推荐 系统 。[431] 使 用 基于 内 容 的 系统 来 对 评分 矩阵 中 的 未 知 元 素 进行 估计 ， 并 
在 协同 过 滤 系 统 中 对 这 些 估计 值 加 以 使 用 。 在 GroupLens 系统 中 [sze] ， 基 于 知识 的 系统 被 
用 于 创建 一 个 人 工 评分 数据 库 。 这 些 评分 被 用 于 在 协同 系统 中 做 出 推荐 。[600] NATE 
样 使 用 特征 放大 型 混合 系统 来 推荐 研究 论文 。 

近来 已 经 有 很 多 技术 被 应 用 于 创建 源 于 评分 矩阵 和 内 容 和 矩阵 的 融合 特征 空间 或 统一 的 
表示 。 机 器 学 习 工 具 可 以 被 用 于 这 类 特征 空间 或 者 统一 表示 上 。 根 据 这 一 思路 ， 最 早 一 篇 
论文 建立 了 源 于 评分 和 内 容 信 息 的 联合 特征 映射 [ssal ， 并 且 使 用 机 器 学 习 模 型 做 出 预测 。 
一 种 基于 张 量 的 方法 被 用 于 实现 这 一 目标 。[557] 同样 使 用 了 一 种 类 似 的 方法 ， 这 种 方法 
将 用 户 -物品 消费 的 画像 矩阵 和 物品 一 特征 内 容 和 矩阵 联合 地 分 解 形 成 一 个 共同 的 潜在 空间 。 
这 一 潜在 表示 法 接 下 来 被 用 于 学 习 。[411] 使 用 了 一 种 将 评分 与 反馈 文本 相 结合 的 潜在 因 
子 模型 。[14] 提出 了 一 种 基于 回归 的 用 于 评分 预测 的 潜在 因子 模型 ， 这 一 模型 使 用 内 容 
特征 来 进行 因素 估计 。 用 户 和 物品 潜在 因子 被 通过 基于 用 户 和 物品 特征 的 独立 回归 模型 进 
行 估计 。 随 后 这 一 模型 使 用 积 性 函数 基于 之 前 生成 的 用 户 和 物品 因素 产生 预测 结果 。 在 
[456] 中 ， 稀 琉 回 归 模 型 也 被 用 于 进行 融合 预测 。 最 后 ， 基 于 图 的 模型 被 用 于 产生 统一 表 
示 。[238] 着 重 介绍 了 用 户 行为 和 例如 用 户 一 物品 画像 和 辅助 信息 等 若干 特征 间 的 关联 权 
重 。 统 一 玻 尔 效 曼 机 被 用 于 产生 预测 。[129] 提出 了 一 种 基于 图 的 统一 表示 法 。 这 种 方法 
创建 了 一 个 包含 物品 结 点 、 用 户 结 点 和 物品 特征 结 点 的 贝 叶 斯 网 络 。 这 一 贝 叶 斯 网 络 被 用 
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于 产生 组 合 的 基于 内 容 和 协同 的 推荐 信息 。 

在 元 级 型 混合 系统 中 ， 前 一 推荐 方法 通过 学 习 构 建 的 推荐 模型 被 用 作 下 一 层 推荐 输入 
的 输入 。 在 Pazzani 的 早期 工作 ("1 中， 他 提出 了 一 种 基于 内 容 的 模型 3] ， 用 于 描述 对 餐 
馆 进行 预测 的 差异 性 特征 。 每 一 个 用 户 都 被 定义 为 一 组 代表 差异 性 特征 关键 词 的 向 量 。 基 
于 内 容 的 模型 被 用 于 确定 对 等 组 ， 这 些 对 等 组 接 下 来 被 用 于 创建 推荐 信息 。 [475，534] 
讨论 了 由 基于 内 容 的 系统 和 协同 系统 组 成 的 元 级 型 混合 系统 。[166] 讨论 了 一 种 两 级 贝 叶 
斯 分 级 混合 系统 。[652] 提出 了 另 一 种 由 协同 系统 和 基于 内 容 的 系统 组 合 而 成 的 分 级 贝 叶 
斯 模型 。 利 用 分 级 特征 的 堆 到 推荐 系统 在 论文 [65，66，311，554] 中 被 讨论 。 
STREAM 系统 [5'66] 是 最 早 的 一 种 利用 分 级 特征 的 系统 。 

[121, 559, 623, 660, 661] 中 提出 了 一 些 交叉 型 推荐 系统 。[559] 提出 了 一 种 用 于 
创建 电视 节目 单 的 交叉 型 推荐 系统 ，[660] 讨论 了 用 于 创建 旅游 业 推 荐 的 系统 。 值 得 注意 
的 是 ,许多 交叉 型 混合 系统 被 用 于 复杂 产品 领域 ,例如 基于 知识 的 推荐 系统 中 1550] 。 


6.12 习题 


1. 在 推荐 系统 中 ， 潜 在 因子 模型 的 等 级 是 如 何 影响 偏差 一 方差 平衡 的 ?如 果 必 须 将 潜在 因子 模型 作为 
bagging 算法 集成 系统 的 基础 模型 ， 你 会 选择 高 等 级 的 模型 还 是 低 等 级 的 模型 ? 

2. 如 果 必 须 将 boosting 算法 与 潜在 因子 模型 联合 使 用 ， 习 题 1 中 的 答案 是 否 会 改变 ? 

3. 使 用 加 权 型 潜在 因子 模型 作为 基础 模型 实现 一 个 元 素 上 的 bagging 算法 模型 。 

4. 假设 你 已 经 创建 了 一 个 协同 系统 ， 其 中 用 户 一 物品 矩阵 将 关键 词 频率 作 为 矩阵 的 附加 行 。 每 一 个 附加 行 
都 对 应 一 个 关键 词 ， 关 键 词 一 物品 组 合 值 对 应 频率 。 一 个 基于 物品 的 近邻 模型 被 用 于 这 一 增 广 矩 阵 中 。 
这 种 方法 会 使 用 哪 一 种 混合 推荐 系统 ? 讨论 使 用 这 样 一 个 模型 对 推荐 系统 的 准确 性 和 多 样 性 可 能 产生 
的 影响 。 

. 讨论 你 会 怎样 使 用 一 个 单独 权重 参数 来 控制 习题 4 中 协同 部 分 和 基于 内 容 部 分 的 相对 强度 。 你 会 如 何 
以 数据 驱动 的 方式 来 确定 权重 参数 的 最 优 值 ? 


an 
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真正 的 才华 体现 在 对 未 知 、 危 险 、 矛 盾 信 息 的 判断 之 中 。 
— Winston Churchill 


7.1 引言 


协同 过 滤 的 评价 和 分 类 的 评价 有 很 多 的 相同 点 。 之 所 以 有 这 种 相似 性 ， 是 因为 我 们 可 
以 把 协同 过 滤 看 成 是 分 类 和 回归 模型 问题 的 一 种 泛 化 (参见 1. 3.1.3 节 )。 尽 管 如 此 ， 分 
类 回归 的 评价 过 程 还 是 有 很 多 不 同 于 协同 过 滤 的 方面 。 基 于 内 容 的 推荐 方法 的 评价 和 分 类 
回归 模型 却 更 加 相似 ， 因 为 前 者 经 常 在 其 内 部 实现 使 用 了 文本 分 类 方法 。 本 章 将 介绍 一 系 
列 评价 多 种 推荐 算法 的 机 制 ， 而 且 把 这 些 技术 和 类 似 的 使 用 分 类 回归 建 模 的 方法 联系 
起 来 。 

为 了 对 多 种 多 样 的 推荐 算法 的 有 效 性 有 一 个 充分 的 了 解 ， 设 计 一 个 良好 的 评价 系统 是 
至 关 重 要 的 。 我 们 在 本 章 的 后 续 部 分 也 会 发 现 ， 推 荐 系统 的 评估 是 多 方面 的 ， 所 以 一 个 单 
一 标准 不 可 能 实现 设计 者 的 全 部 设计 目标 。 一 个 不 正确 的 试验 评价 系统 会 导致 一 个 特别 的 
算法 或 模型 的 精确 性 要 么 被 过 分 高 估 ， 要 么 被 过 分 低估 。 

推荐 系统 的 评估 过 程 可 以 使 用 在 线 或 者 离线 的 方法 。 在 线 系 统 中 ， 用 户 的 操作 会 反馈 
给 当前 的 评估 过 程 。 所 以 ， 在 线 评估 系统 中 ， 用 户 的 参与 是 必 不 可 少 的 。 例 如 ， 在 一 个 对 
新 闻 评 论 系统 的 在 线 评估 过 程 中 ， 它 将 会 计算 用 户 点 击 那 些 被 评论 的 文章 的 点 击 率 。 这 样 
的 测试 方法 指 的 是 类 似 于 A/B 的 测试 ， 并 且 它 们 在 用 户 端 测 量 这 个 推荐 系统 的 直接 反应 。 
这 样 一 来 ， 在 当天 结束 的 时 候 ， 那 些 有 着 高 点 击 率 的 有 益 的 物品 就 会 是 当前 推荐 系统 最 重 
要 的 目标 对 象 ， 同 时 它 给 系统 的 有 效 性 提供 了 一 个 真实 的 评价 。 然 而 ， 由 于 在 线 评估 要 求 
用 户 动态 参与 其 中 ， 所 以 在 大 多 数 情况 下 ， 用 它 来 当 作 标 准 和 研究 是 不 可 能 的 。 因 此 ， 在 
大 规模 用 户 参 与 其 中 的 前 提 下 ， 从 系统 服务 器 中 存 取 用 户 的 点 击 数据 通常 会 面临 重大 挑 
战 。 即 使 成 功 存 取 了 用 户 的 点 击 数据 ， 那 也 仅仅 是 针对 特定 的 单个 大 规模 数据 系统 。 另 一 
方面 ， 用 户 往往 希望 使 用 来 自 各 个 领域 的 多 种 类 型 的 数据 集 。 这 样 一 来 ， 推 荐 系统 为 确保 
更 强 的 概括 归纳 能 力 ， 以 及 推荐 算法 在 一 系列 设置 下 正常 运行 ， 在 多 类 型 数据 集 上 进行 测 
试 就 显得 特别 重要 。 在 某 些 情况 下 ， 基 于 使 用 过 的 历史 数据 集 的 离线 评价 系统 就 应 运 而 生 
了 。 从 研究 和 实践 的 角度 来 说 ， 目 前 为 止 ， 离 线 评 估 方 法 是 评估 推荐 系统 中 最 常见 的 方 
法 。 因 此 ， 本 章 将 会 把 大 部 分 篇 幅 放 在 研究 离线 方法 上 ， 当 然 ， 考 虑 到 信息 的 完整 性 ， 一 
些 有 关 在 线 方法 的 讨论 也 会 包含 其 中 。 

当 使 用 离线 方法 时 ， 精 确 性 度量 通常 提供 一 个 不 完整 的 有 关 推 荐 系统 真实 点 击 率 的 画 
面 。 其 他 几 种 次 要 的 指标 也 起 着 很 重要 的 作用 。 因 此 ， 为 了 从 用 户 角度 使 衡量 指标 真实 反 
应 系统 有 效 性 的 能 力 ， 认 真 细 致 地 设计 评 佑 系统 就 显得 尤为 重要 。 特 别 要 说 的 是 ， 从 为 推 
荐 系统 设计 评估 方法 的 角度 来 看 ， 下 面 几 点 也 很 重要 。 

D 评估 目的 : 当 我 们 用 推荐 精确 性 来 评价 推荐 系统 的 时 候 ， 但 其 实 这 种 方法 带 来 的 
用 户 体验 往往 并 不 是 那么 好 。 尽 管 精确 性 确实 是 整个 评估 过 程 最 重要 的 一 部 分 ， 但 是 还 有 


225 


168 #%7¥ 





很 多 次 要 的 指标 ， 比 如 新 颖 性 、 信 任 度 、 覆 盖 率 和 惊喜 度 等 对 用 户 体验 也 很 重要 。 这 是 因 
为 这 些 指 标 对 转换 率 有 着 或 多 或 少 的 影响 。 尽 管 如 此 ， 对 这 些 因子 的 定量 经 常 是 相当 主观 
的 ， 而 且 通 常 也 没有 硬性 措施 来 提供 一 个 数值 指标 。 

2) 实验 设计 因素 : 尽管 精确 性 被 用 来 当 评估 标准 ， 设 计 实 验 以 确保 精确 性 不 要 被 高 
佑 或 者 低估 是 至 关 重 要 的 。 例 如 ， 如 果 同 一 个 具体 的 评价 同时 被 用 来 建 模 和 评估 精确 性 ， 
那么 精确 性 必然 会 被 高 估 。 在 这 种 背景 下 ， 认真 设计 实验 就 尤其 重要 。 

3) 精确 性 : 如 果 抛 开 那 些 次 要 标准 不 谈 ， 精 确 性 确实 依然 会 是 评估 过 程 最 重要 的 一 
部 分 。 推 荐 系统 将 会 被 以 预测 精确 性 或 者 排名 精确 性 来 评估 。 因 此 ， 很 多 像 平 均 绝 对 误差 
和 均 方 误差 这 样 的 普通 指标 也 会 被 广泛 使 用 。 排 名 评估 可 以 使 用 各 种 方法 进行 ， 如 基于 效 
用 的 计算 、 秩 相关 系数 以 及 受 试 者 操作 特征 曲线 (ROC 曲线 ) 。 

在 本 章 中 ,除了 最 基本 的 精确 性 标准 以 外 ,我们 将 首先 讨论 常见 的 推荐 系统 评估 指 
标 。 这 几 种 指标 包括 多 样 性 和 新 颖 性 。 由 于 这 几 种 指标 往往 都 是 基于 用 户 的 主观 体验 ， 所 
以 如 何 定量 研究 是 一 大 挑战 。 从 定量 的 角度 来 看 ， 精 确 性 确实 是 一 个 相当 容易 测量 的 指 
标 ， 因 而 它 被 广泛 使 用 在 市 场 和 测试 中 。 与 此 同时 ， 我们 也 确实 发 现存 在 一 些 定量 方法 来 
评估 那些 诸如 多 样 性 、 新 颖 性 等 次 要 指标 。 尽 管 本 章 的 大 部 分 篇 幅 都 将 关注 精确 性 ， 但 我 
们 也 会 讨论 一 些 针对 次 要 指标 的 方法 。 

本 章 结 构 如 下 。7. 2 节 会 给 出 几 种 不 同 的 评估 系统 的 概述 。7. 3 节 研 究 评估 推荐 系统 
的 主要 目标 。7. 4 节 将 会 讨论 有 关 精 确 性 设计 的 方法 。7. 5 节 研 究 推荐 系统 的 精确 性 。7.6 
节 会 讨论 这 几 种 评估 方法 的 局 限 性 。7. 7 节 总 结 本 章 。 


7.2 评估 范例 


本 节 仔 细 研 究 了 推荐 系统 的 三 种 不 同类 型 的 评估 方法 : 用 户 调查 、 在 线 评估 和 用 历史 
数据 集 的 离线 评 佑 。 前 两 种 类 型 都 是 和 用 户 有 关 的 ， 尽 管 它 们 使 用 的 方法 略微 不 同 。 前 两 
种 方法 的 主要 区 别 在 于 如 何 召 集 用 户 来 做 调查 。 尽 管 在 线 评 估 方 法 对 推荐 算法 的 真实 作用 
有 着 深刻 的 研究 ， 但 是 在 它 的 发 展 过 程 中 依然 面临 着 几 个 障碍 。 接 下 来 ， 我 们 将 讨论 这 几 
种 不 同 的 评估 类 型 。 


7.2.1 用 户 调查 


在 用 户 调查 中 ， 测 试 对 象 被 动态 要 求 执行 一 些 具体 的 需要 与 系统 进行 交互 的 任务 。 我 
们 可 以 在 交互 之 前 或 者 之 后 来 收集 用 户 给 出 的 反馈 信息 ， 而 且 系 统 会 收集 有 关 用 户 和 推荐 
系统 交互 的 信息 。 然 后 ， 这 些 信息 被 用 来 推断 用 户 喜 欢 什么 ， 不 喜欢 什么 。 例 如 ， 用 户 可 
能 被 要 求 和 一 个 使 用 了 推荐 方法 的 产品 页 面 交 互 ， 并 且 在 之 后 给 出 对 这 个 推荐 系统 的 反 
馈 。 这 样 的 方法 可 以 用 来 评价 推荐 系统 中 算法 的 有 效 性 。 或 者 ， 用 户 可 能 被 要 求 去 听 几 首 
歌曲 ， 然 后 通过 给 这 些 歌曲 评分 的 方式 来 给 出 反馈 。 

用 户 调查 的 一 个 重要 优点 就 是 它 允 许 收 集 用 户 和 推荐 系统 交互 的 信息 。 一 系列 改变 推 
荐 系统 的 用 户 交 互 的 设想 能 得 到 验证 ， 比 如 改变 某 个 算法 或 者 用 户 界面 的 影响 。 另 一 方 
面 ， 受 试 对 象 对 推荐 系统 测试 的 积极 性 也 会 给 他 的 选择 和 行为 带 来 偏差 。 同 时 ， 为 达到 评 
估 的 目的 ， 大量 的 受 试 对 象 的 获取 也 是 困难 和 代价 昂贵 的 。 在 大 多 数 情况 下 ， 这 些 测试 对 
象 并 不 代表 真实 系统 的 用 户 群 ， 因 为 招募 测试 对 象 的 过 程 本 身 就 是 一 个 不 能 完全 控制 的 偏 
差 。 并 不 是 所 有 的 用 户 都 愿意 参与 调查 ， 而 且 考 虑 到 余下 的 人 数 , 这 些 自愿 参加 的 用 户 也 
不 能 完全 代表 大 众 的 兴趣 。 例 如 ， 在 给 音乐 评分 的 例子 中 ， 志 愿 者 很 可 能 是 音乐 发 烧 友 。 
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而 且 ， 用 户 意识 到 他 们 是 应 聘 来 参加 一 项 特殊 的 调查 也 会 影响 他 们 的 反应 。 因 此 ， 用 户 调 
查 的 结果 不 能 全 信 。 


7.2.2 在 线 评估 


在 线 评 估 也 要 利用 用 户 调查 的 方法 ， 只 可 惜 这 些 调查 对 象 往往 很 少 是 已 部 署 或 者 商业 
系统 的 真实 用 户 。 这 种 方法 很 少 受到 招募 过 程 误 差 的 影响 ， 因 为 在 通常 情况 下 ， 用 户 往往 
会 直接 使 用 这 个 系统 。 这 种 系统 经 常 被 用 来 评估 多 个 算法 的 不 同 表现 [805] 。 通 常 ， 用 户 被 
随机 抽样 ， 并 对 每 一 个 随机 选择 的 用 户 来 测试 各 种 不 同 的 算法 。 转 化 率 是 一 个 典型 的 用 来 
测量 推荐 系统 对 用 户 有 效 性 的 指标 。 转 化 率 度量 某 个 用 户 选择 系统 推荐 给 他 的 物品 的 频 
率 。 例 如 ， 在 一 个 新 闻 推 荐 系统 中 ， 可 以 计算 用 户 选 择 系 统 推荐 的 文章 的 次 数 。 如 果 需 
要 ， 预 计 的 花费 或 者 利润 会 被 添加 到 每 个 物品 中 ， 使 得 测试 对 物品 的 重要 性 敏感 。 这 些 方 
法 同时 也 适用 于 A/B 测试 ， 并 且 会 测量 推荐 系统 在 用 户 端 的 直接 影响 。 这 些 方法 的 基本 
思路 就 是 如 下 比较 两 种 算法 : 

1) 把 用 户 分 割 成 A 和 B 两 个 小 组 ; 

2) 用 两 个 算法 分 别 在 两 个 小 组 里 运行 一 段 时 间 ， 在 这 期 间 控制 两 个 小 组 的 其 他 所 有 
条 件 《〈 比 如 每 个 小 组 成 员 的 选择 过 程 ) 尽 可 能 相似 ; 

3) 测试 过 程 结束 后 ， 比 较 两 个 小 组 的 转化 率 (或 者 其 他 回报 指标 )。 

这 种 方法 非常 类 似 于 医学 上 进行 的 临床 试验 。 这 种 方法 对 利润 等 目标 而 言 也 是 所 有 用 
于 测试 系统 长 期 表现 的 方法 中 最 准确 的 一 个 。 同 时 ， 这 些 方法 也 适用 于 前 面 小 节 中 提 到 的 
用 户 调 查 。 

一 个 观测 结果 是 ， 如 果 每 次 和 推荐 系统 交互 的 回报 都 能 单独 测试 出 来 ， 那 么 就 没有 必 
要 严格 地 把 用 户 分 成 各 个 小 组 。 在 这 种 情况 下 ， 可 以 随机 地 把 其 中 的 一 个 算法 呈现 给 同一 
个 用 户 ， 并 且 这 种 具体 交互 带 来 的 回报 也 是 可 以 测量 的 。 这 些 评估 推荐 系统 的 方法 还 可 以 
被 推广 到 那些 更 有 效 的 推荐 算法 的 发 展 中 ， 从 而 得 到 被 称 为 多 臂 赌博 机 《multi-arm ban- 
dit) 的 算法 。 算 法 的 基本 思想 如 下 : 在 一 个 赌场 里 面 ， 一 个 赌 徒 (推荐 系统 ) 面 对 一 列 投 
币 机 (推荐 算法 ) 选择 其 中 一 个 。 这 个 赌 徒 推测 这 些 机 器 里 面 有 一 台 机 器 的 回报 率 〈 转 化 
R) 要 比 其 他 的 都 高 。 因 此 ， 为 了 探索 和 这 些 机 器 有 关 的 回报 ， 这 个 赌 徒 花 费 10% 的 时 间 
来 随机 地 尝试 某 台 机 器 。 在 剩 下 的 90% 的 时 间 里 ,为 了 利用 自己 在 探索 过 程 中 学 到 的 知 
识 ， 该 赌 徒 贪心 选择 回报 率 最 高 的 那 台 机 器 。 随 机 的 方式 完全 贯穿 于 整个 探索 和 利用 过 
E. 而且， 相对 于 之 前 的 评估 结果 ， 这 个 赌 徙 可 能 会 更 加 重视 那些 最 近 的 结果 。 这 种 通用 
方法 是 和 强化 学 习 的 概念 紧密 相关 的 ， 而 强化 学 习 经 常 和 在 线 系统 成 对 出 现 。 尽 管 强化 学 
习 已 经 在 分 类 和 回归 建 模 有 关 的 文献 资料 中 被 广泛 地 研究 过 中， 但 是 其 在 推荐 领域 的 相 
关 研 究 是 相当 有 限 的 39"390.585] 。 因 此 ， 在 这 种 算法 的 进一步 发 展 方面 存在 着 重要 的 研究 
机 会 。 

这 种 方法 的 主要 缺点 是 ， 系 统 只 有 在 大 量 的 用 户 已 经 注册 的 前 担 下 ， 才 可 以 切实 完成 
部 署 。 因 此 ， 在 开始 阶段 想 使 用 这 种 方法 是 很 难 的 。 此 外 ， 这样 的 系统 往往 并 不 完全 开放 
使 用 权限 ， 它 们 目前 只 对 具体 的 商业 系统 的 拥有 者 开放 。 因 此 ， 这样 的 测试 只 能 在 商业 机 
构 上 进行 ， 而 且 只 能 开放 系统 负责 的 有 限 数量 的 场景 。 这 就 意味 着 这 些 测试 经 常 不 能 推广 
到 由 科学 家 或 者 实践 者 发 起 的 与 系统 无 关 的 评 量 基 准 上 。 在 许多 情况 下 ， 用 一 系列 设置 和 
数据 域 的 压力 测试 来 检验 推荐 算法 的 健壮 性 是 值得 尝试 的 。 通 过 使 用 多 样 化 的 设置 ， 我 们 
能 够 达到 理想 的 系统 的 普 适 性 。 令 人 遗憾 的 是 ， 在 线 方法 的 设计 初衷 并 不 是 为 了 实现 这 些 目 
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的 。 造 成 问题 的 一 部 分 原因 是 ， 在 评估 过 程 中 我 们 不 能 完全 控制 测试 用 户 的 行为 。 


7.2.3 使 用 历史 数据 集 进 行 离线 评估 


离线 测试 使 用 的 是 评分 等 历史 数据 。 在 某 些 情 况 下 ， 时 间 信 息 也 可 能 和 评分 相关 ， 比 
如 在 每 个 用 户 已 经 评分 过 的 物品 的 时 间 惟 。Netflix Prize 数据 集 是 一 个 众所周知 的 历史 数 
据 集 [32 。 其 最 初 发 布 在 一 个 在 线 测 试 的 文本 中 ， 并 由 此 成 为 衡量 很 多 算法 的 基准 。 使 用 
历史 数据 集 的 主要 优点 是 不 用 要 求 大 量 的 用 户 参与 。 一 旦 获得 了 一 个 数据 集 ， 就 能 拿 来 作 
为 一 个 通过 一 系列 的 设置 来 比较 多 种 算法 的 标准 化 基准 。 而 且 ， 来 自 不 同 领域 (如 音乐 、 
电影 、 新 闻 等 ) 的 多 样 化 的 数据 集 可 以 被 用 来 测试 推荐 系统 的 普 适 性 。 

离线 方法 贯穿 在 测试 推荐 算法 的 大 部 分 主流 的 技术 中 ， 因 为 在 这 种 情况 下 ， 标 准 框架 
和 评估 方法 已 经 形成 。 因 此 ， 本 章 对 离线 评估 方法 不 做 过 多 讨论 。 离 线 评 估 的 主要 缺点 是 
它 不 能 够 测试 在 未 来 用 户 对 于 推荐 系统 的 真实 反应 。 例 如 ， 数 据 会 随 着 时 间 逐 步 发 展 ， 然 
而 当前 的 预测 很 可 能 不 再 适用 于 未 来 的 大 部 分 有 关 的 预测 。 而 且 ， 像 精确 性 这 样 的 指标 并 
不 能 像 惊 喜 度 和 新 颖 度 一 样 充分 体现 推荐 的 重要 特征 。 这 样 的 推荐 对 于 推荐 的 转化 率 有 着 
重要 的 长 期 的 影响 。 然 而 ， 尽 管 有 这 些 缺 点 ， 离 线 方法 还 是 被 推荐 系统 评估 广泛 接受 的 技 
术 。 这 是 因为 在 这 些 测试 方法 中 的 数据 的 健壮 性 好 而 且 更 容易 被 理解 。 


7.3 评估 设计 的 总 体 目标 

本 节 将 会 研究 评估 推荐 系统 的 几 种 目标 。 除 了 众所周知 的 精确 性 以 外 ， 其 他 几 种 目标 
包括 多 样 性 、 惊 喜 度 、 新 颖 度 、 健 壮 性 和 可 拓展 性 。 其 中 几 个 目标 可 以 被 具体 量化 ， 而 其 
他 的 则 是 基于 用 户 体验 的 主观 目标 。 在 这 种 情况 下 ， 唯 一 度量 它们 的 方法 就 是 通过 用 户 调 
查 。 本 节 我 们 将 会 研究 这 几 种 不 同 的 目标 。 


7.3.1 精确 性 


精确 性 是 评估 推荐 系统 过 程 中 最 基本 的 指标 之 一 。 本 节 将 提供 一 个 关于 这 个 指标 的 简 
单 介 绍 。 详 细 的 讨论 会 在 本 章 的 7.5 节 给 出 。 在 大 多 数 情况 下 ， 评 分 是 需要 被 评估 的 数 
字 。 因 此 ， 这 里 的 精确 性 指标 与 回归 建 模 中 用 到 的 精确 性 类 似 。 假 设 R 是 评分 矩阵 ，rw 
就 是 已 知 的 用 户 w 对 物品 7 的 评分 ，#w 是 推荐 算法 估计 的 分 数 。 那 么 ,评估 的 特定 物品 的 
误差 等 于 ew 二 7w 一 rx。 通过 对 绝对 值 或 平方 值 的 与 物品 相关 的 误差 平均 来 计算 总 体 误差 。 
MEA, 很 多 系统 不 预测 分 数 ， 取 而 代 之 的 是 仅 输出 推荐 物品 的 前 个 排名 。 这 种 方式 在 隐 
式 反馈 信息 数据 集中 特别 常见 。 有 许多 不 同 的 方法 可 以 用 来 评价 预测 分 数 的 精确 性 以 及 排 
名 的 精确 性 。 

我 们 会 在 7. 5 节 详 细 讨 论 几 种 计算 精确 性 的 方法 ， 所 以 这 里 不 再 展开 讨论 。 本 小 节 的 
目的 就 是 简要 引入 几 个 指标 以 确保 进一步 讨论 。 精 确 性 评估 的 要 素 如 下 。 

1) 设计 精确 性 评估 : 所 有 我 们 在 评分 矩阵 中 观察 到 的 数据 条 目 不 能 既 用 来 训练 模型 
又 用 来 评估 精确 性 。 这 样 做 的 目的 是 为 了 避免 因为 过 拟 合 造成 的 过 分 高 估 。 用 不 同 于 训练 
数据 的 其 他 数据 来 评估 是 很 重要 的 。 如 果 S 代表 评分 矩阵 里 面 观 察 到 的 物品 的 集合 ， 那 么 用 
S 的 一 个 子 集 正 来 评估 ， 并 用 集合 S 一 EE 来 训练 。 这 种 情景 和 曾经 遇 到 的 分 类 算法 的 评估 是 
完全 相同 的 。 毕 竟 ， 正 如 我 们 在 之 前 章节 中 讨论 过 的 那样 ， 协 同 过 滤 就 是 分 类 和 回归 建 模 问 
题 的 一 种 泛 化 。 因 此 ， 那 些 在 分 类 和 回归 建 模 问 题 中 用 到 的 标准 方法 也 同样 可 以 用 在 评估 推 
荐 算法 上 ， 比 如 holdout 方法 和 交叉 检验 方法 。 这 些 问 题 将 会 在 7. 4 节 中 进行 更 细致 的 讨论 。 
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2) 精确 性 指标 : 精确 性 指标 被 用 来 评估 指定 的 用 户 - 物 品 组合 的 评分 预测 精确 性 评测 
或 者 由 推荐 系统 提供 的 前 & 个 排名 的 精确 性 。 具体 来 说 ， 评 分 矩阵 中 集合 五 的 物品 的 评分 
是 隐藏 的 ， 并 且 精 确 性 评估 是 在 这 些 隐藏 项 上 进行 。 针 对 以 下 两 种 情况 可 以 运用 不 同方 法 : 

。 评分 的 精确 性 : 如 前 所 述 ， 特 定 项 的 误差 通过 公式 ew =r 一 rw 给 出 ， 其 中 代表 

用 户 ,，j 代表 物品 。 这 个 误差 可 以 通过 多 种 方法 被 充分 利用 ， 从 而 计算 在 评估 过 程 
进行 的 评分 矩阵 中 集合 瑟 的 总 体 误 差 。 一 个 例子 是 MSE: 


> ew 
MSE = ST e721) 
上 述 数值 的 平方 根 指 的 就 是 均 方 根 误 差 ， 或 者 称 为 RMSE， 
X ew 
RMSE = ,| “vs Ch-2) 
E| 


这 些 评测 方法 大 部 分 借鉴 了 回归 建 模 中 的 资料 。 其 他 几 种 重要 的 评测 误差 的 方法 ， 
in MAE, 会 在 7.5 节 讨 论 。 

o 评估 排名 的 精确 性 : 许多 推荐 系统 并 不 直接 评 佑 分数， 相反， 它们 会 提供 隐藏 排名 

的 预测 。 依 靠 地 面 真实 情况 的 性 质 , 一 个 人 可 以 使 用 和 排名 相关 的 方法 、 基 于 效用 
的 方法 或 者 ROC 曲线 方法 。 后 面 的 两 类 方法 是 为 一 元 ( 隐 式 反馈 ) 数据 集 设计 的 。 
这 些 方 法 会 在 7.5 节 详 细 讨 论 。 

一 些 精确 性 的 方法 也 是 为 了 最 大 化 商家 的 利润 而 设计 的 ， 因 为 从 推荐 过 程 的 角度 来 
看 ， 并 不 是 所 有 的 物品 都 重要 。 这 些 指标 把 特定 物品 的 花费 纳入 计算 过 程 。 精 确 性 指标 的 
主要 问题 是 它们 经 常 没 有 评测 推荐 系统 在 现实 设置 中 的 真实 影响 。 例 如 ， 一 个 显然 的 推荐 
可 能 是 准确 的 ， 但 是 一 个 用 户 可 能 已 经 买 过 那个 物品 。 因 此 ， 就 提高 系统 的 转化 率 而 言 ， 
这 样 的 推荐 可 用 性 很 低 。 有 关 使 用 精确 性 指标 的 挑战 的 讨论 请 看 参见 文献 [418]. 


7.3.2 -覆盖 率 


即使 在 一 个 推荐 系统 已 经 高 度 准 确 的 情况 下 ， 它 甚至 也 经 常 不 能 对 其 中 某 一 部 分 物品 
或 者 用 户 做 出 推荐 。 这 就 涉及 有 履 盖 幸 。 推 荐 系统 的 这 种 局 限 性 是 评分 矩阵 稀 玖 所 造成 的 。 
例如 ， 在 一 个 每 行 每 列 只 含有 一 个 数据 元 素 的 评分 矩阵 中 ， 那么， 几乎 所 有 的 推荐 算法 都 
不 能 够 给 出 有 意义 的 推荐 。 尽 管 如 此 ， 不 同 的 推荐 系统 在 提供 覆盖 率 上 还 是 有 不 同 的 倾向 
性 。 然 而 在 实际 的 设置 中 ， 因 为 在 那些 不 能 够 准确 预测 的 矩阵 里 使 用 了 系统 默认 值 ， 所 以 
系统 经 常 有 百 分 百 的 覆盖 率 。 当 某 个 具体 的 用 户 - 物 品 组 合 不 能 被 预测 的 时 候 ， 这 个 默认 
值 的 例子 将 会 设 为 所 有 用 户 对 物品 的 评分 的 均值 。 因 此 ， 精 确 性 和 覆盖 率 的 折 中 往往 需要 
被 纳入 整个 评估 过 程 当 中 。 目 前 存在 两 种 类 型 的 覆盖 率 ， 一 种 指 的 是 用 户 空 间 履 盖 幸 ， 男 
一 种 指 的 是 物品 空间 覆盖 率 。 

用 户 空 间 覆 盖 度 量 可 预测 至 少 & 个 评分 的 用 户 占 比 。& 的 值 应 设置 为 推荐 列表 的 期 望 
大 小 。 当 用 户 可 以 预测 少 于 & 个 评分 时 ,不 可 能 向 用 户 呈 现 大 小 为 的 有 意义 的 推荐 列 
表 。 这 种 情况 适用 于 当 一 个 特定 用 户 很 少 有 和 其 他 用 户 一 样 评分 的 项 时 。 考 虑 一 个 基于 用 
户 的 近邻 算法 。 当 一 个 用 户 很 少 有 评分 和 别人 相似 的 时 候 ， 我 们 很 难 稳定 地 计算 出 该 用 户 
的 邻居 结 点 。 因 此 也 很 难 给 那 位 用 户 推荐 足够 的 候选 项 。 在 某 些 高 度 稀 朴 的 情况 下 ， 甚 至 
没有 一 个 算法 能 预测 该 用 户 的 任何 一 项 分 数 。 但 是 ,不 同 的 算法 可 能 有 着 不 同等 级 的 覆盖 
率 ， 所 以 一 个 用 户 的 覆盖 率 可 以 通过 测试 每 一 种 算法 然后 决定 给 用 户 推 荐 的 物品 的 数量 来 
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评估 。 用 户 空 间 覆 盖 率 的 一 个 麻烦 的 地 方 在 于 ， 对 不 能 够 可 靠 预测 分 数 的 那些 用 户 一 物品 
组 合 ， 可 以 仅仅 使 用 随机 值 来 达到 完全 覆盖 。 因 此 ， 用 户 空 间 覆 盖 率 应 该 经 常 在 精确 性 和 
覆盖 率 折 中 的 考虑 下 来 评 佑 。 例 如 ， 在 基于 近邻 的 推荐 中 ,增加 邻居 结 点 的 数量 可 以 提供 
一 个 精确 性 和 和 覆盖 率 折 中 的 曲线 。 

用 户 空间 覆盖 率 的 一 个 可 替代 的 定义 是 ， 在 可 能 给 用 户 做 出 推荐 之 前 ， 最 小 化 用 户 画 
像 的 数量 。 对 某 个 特定 算法 ,可 以 通过 实验 估计 可 以 进行 推荐 的 任何 用 户 的 已 知 评分 的 最 
小 数量 。 但 是 ， 通常 难以 评估 此 数量 ， 因 为 度量 对 用 户 已 知 评分 的 物品 很 敏感 。 

物品 空间 履 盖 率 的 概念 和 用 户 空间 覆盖 率 的 概念 类 似 。 物 品 空间 覆盖 率 测量 那些 至 少 
被 个 用 户 评分 过 的 物品 。 在 实践 中 ， 这 个 概念 很 少 被 使 用 ， 因 为 推荐 系统 主要 是 为 了 给 
用 户 提 供 推 荐 清单 ， 而 不 是 仅仅 为 了 给 物品 推荐 用 户 。 

物品 空间 覆盖 率 的 另 一 种 定义 形式 是 类 别 履 盖 率 ， 适 用 于 推荐 列表 。 注 意 前 一 个 定义 
是 为 评分 值 预测 量 身 定做 的 。 设 想 一 个 场景 ， 其 中 矩阵 里 面 的 每 一 个 评分 值 都 可 以 被 一 个 
算法 预测 ， 但 是 推荐 给 每 一 个 用 户 的 前 不 项 物品 往往 是 相同 的 。 因 此 ， 尽 管 之 前 关于 物品 
空间 覆盖 率 的 定义 意味 着 更 好 的 表现 , 但 是 实际 对 用 户 来 说 覆盖 率 是 非常 有 限 的 。 换 句 话 
说 ， 对 用 户 的 推荐 并 不 是 多 样 化 的 ， 也 不 能 完全 覆盖 所 有 类 别 。 令 T, 代 表 推 荐 给 用 户 wu © 
(eem) 的 前 & 项 。 类 别 覆 盖 率 CC 被 定义 为 至 少 推荐 给 一 个 用 户 的 物品 的 占 比 。 
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CC = (7=3) 


其 中 表示 物品 的 总 数 。 这 个 值 可 以 很 容易 通过 实验 来 获取 。 


7.3.3 置信 和 度 和 信任 度 


对 评分 的 估计 是 一 个 不 准确 的 过 程 ， 因 为 这 个 过 程 会 随 着 手中 特定 数据 集 的 改变 而 显 
著 地 变化 。 而 且 ， 算 法 采用 的 方法 可 能 也 会 对 预测 的 分 数 产生 重要 的 影响 。 这 就 往往 造成 
用 户 质疑 预测 的 精确 性 。 鉴 于 此 ， 许 多 推荐 系统 会 为 系统 评分 赋予 一 个 置信 度 估计 。 例 
如 ， 系 统 提供 一 个 预测 分 数 的 置信 和 度 区 间 。 一 般 来 讲 ， 那 些 能 准确 地 推荐 更 小 置信 度 区 间 
的 推荐 系统 是 更 加 可 取 的 ， 因 为 这 样 会 增强 用 户 对 于 系统 的 信任 。 对 于 两 个 用 同样 方法 来 
赋予 置信 和 度 的 算法 而 言 ， 测 量 预测 误差 落 在 置信 度 区 间 的 程度 是 可 行 的 。 例 如 ， 如 果 两 个 
推荐 系统 能 为 每 个 评分 提供 95% 的 置信 和 度 区 间 ， 我 们 可 以 测量 两 个 算法 赋予 的 区 间 的 绝对 
宽度 。 其 中 有 更 小 置信 和 度 区 间 宽 度 的 算法 将 会 胜出 ， 尽 管 两 个 算法 都 正确 (比如 ， 都 在 指 
定 的 区 间 内 )〉 地 在 至 少 95% 的 时 间 在 隐藏 的 评分 中 。 如 果 其 中 有 一 个 算法 低 于 要 求 的 
95% 精 确 性 ， 那 么 这 个 算法 必然 输 了 。 遗 憾 的 是 ， 如 果 一 个 系统 使 用 95% 的 置信 度 区 间 而 
另外 一 个 使 用 99% 的 置信 度 区 间 ， 完 全 有 意义 地 比较 它们 是 不 可 能 的 。 因 此 ， 只 有 在 两 种 
情况 下 设置 同样 的 置信 度 ， 才 有 可 能 对 系统 进行 比较 。 

置信 度 测量 的 是 系统 对 推荐 的 信任 ， 而 信任 度 测 量 的 是 用 户 对 推荐 的 信任 。 社 交 信 任 
度 的 概念 会 在 第 11 章 进 行 详 细 讨 论 。 总 体 上 来 说 ， 信 任 度 测量 的 是 用 户 对 已 经 评分 的 信 
任 程 度 。 甚 至 来 说 ， 有 的 时 候 预 测 的 评分 是 准确 的 ， 如 果 用 户 不 相信 提供 的 评分 ， 那 这 些 
分 数 也 是 没 用 的 。 信 任 度 和 精确 性 密切 相关 ， 但 是 完全 不 一 样 。 例 如 ， 当 推荐 系统 给 出 解 
释 的 时 候 ， 特 别 是 如 果 这 个 解释 符合 逻辑 ， 用 户 很 大 程度 上 会 相信 系统 。 

信任 度 经 常 不 是 为 了 达到 和 效用 一 样 服务 于 推荐 系统 的 目标 。 例 如 ， 如 果 一 个 推荐 系 
统 推 荐 了 一 些 用 户 已 经 喜欢 或 者 知道 的 物品 给 这 个 用 户 ， 那么 可 以 认为 这 样 的 推荐 对 用 户 
来 说 可 用 性 很 低 。 另 一 方面 ， 这 样 的 推荐 却 可 以 增加 用 户 对 系统 的 信任 。 所 以 说 在 推荐 已 
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经 被 用 户 知道 的 前 提 下 ， 信任 度 和 类 似 新 颖 度 这 样 的 指标 是 予 盾 的 ， 这 样 的 情况 是 不 受 欢 
迎 的 。 因 此 在 推荐 系统 中 ， 指 标 对 立 是 很 常见 的 。 最 简单 的 测量 信任 度 的 方法 就 是 在 用 户 
对 结果 信任 明确 怀疑 的 情况 下 ， 采 用 用 户 调查 实验 。 这 样 的 实验 同时 也 适用 于 在 线 实验 。 
在 文献 [171, 175, 248, 486] 中 讨论 了 很 多 信任 度 评估 的 在 线 实验 方法 。 总 的 来 说 ， 通 
过 离线 实验 来 测量 信任 度 是 很 难 的 。 


7.3.4 新 颖 度 


推荐 系统 中 的 新 颖 度 用 来 评估 推荐 系统 向 用 户 推 荐 他 们 不 知道 的 物品 或 者 他 们 之 前 没 
见 过 的 物品 的 可 能 性 。 有 关 新 颖 度 概念 的 讨论 可 参考 文献 [308]。 没 有 见 过 的 推荐 物品 往 
往 会 增加 用 户 发 气 他 们 之 前 并 不 知道 的 喜好 的 能 力 。 这 上 比 发 掘 那些 用 户 已 经 知道 的 但 是 还 
没有 评分 的 物品 显得 重要 多 了 。 在 多 种 类 型 的 推荐 系统 中 ， 比 如 基于 内 容 的 方法 ， 推 荐 的 
物品 更 倾向 于 那些 用 户 显 然 喜欢 的 ， 因 为 系统 的 特性 是 推荐 期 望 的 物品 。 在 底层 系统 中 ， 
一 小 部 分 这 样 的 推荐 可 以 提高 用 户 的 信任 度 ， 然 而 就 提高 转化 率 而 言 它们 往往 不 是 很 有 
用 。 最 自然 的 评测 新 颖 度 的 方法 是 在 线 实验 ， 在 实验 中 明确 地 询问 用 户 他 们 是 否 之 前 就 已 
经 熟悉 这 个 推荐 物品 了 。 

正如 在 引言 中 提 到 的 那样 ， 在 线 实验 也 不 总 是 可 行 的 ， 因 为 缺乏 支持 大 量 在 线 用 户 的 
系统 。 幸 运 的 是 ， 只 要 评分 的 时 间 戳 是 有 效 的 ， 离 线 方法 也 能 够 大 约 估计 新 颖 度 。 基 本 思 
想 是 ， 新 颖 的 系统 在 推荐 那些 未 来 而 不 是 现在 很 可 能 被 用 户 选 择 的 物品 上 表现 好 一 些 。 因 
此 ， 所 有 评分 创建 时 间 在 某 一 具体 时 间 点 如 之 后 的 评分 数据 全 部 从 训练 数据 集中 拿 走 。 而 
且 ， 一 部 分 评分 时 间 在 如 之 前 的 评分 记录 也 会 被 拿 走 。 然 后 用 这 些 拿 走 的 评分 数据 来 训练 
系统 。 这 些 取出 的 物品 也 被 用 于 评分 目的 。 对 于 每 一 个 在 时 间 点 如 之 前 评分 的 被 正确 推荐 
的 物品 ， 新 颖 度 评 估 的 得 分 将 受到 惩罚 。 另 一 方面 ， 每 一 个 在 时 间 点 如 之 后 评分 的 被 推荐 
物品 ， 新 颖 度 得 分 将 受到 奖励 。 因 此 ， 这 种 评估 方法 评测 了 一 种 在 过 去 和 未 来 的 精确 性 是 
有 差别 的 。 在 一 些 新 颖 度 的 评测 方法 中 ， 假 设 流行 物品 很 少 是 新 颖 的 ， 而 且 推荐 流行 物品 
的 那些 方法 也 是 可 信 度 较 低 的 。 


7.3.5 惊喜 度 


“惊喜 度 ” 这 个 单词 逐 字 翻译 的 意思 就 是 “幸运 地 发 现 ”。 因 此 ， 人 惊喜 度 是 用 来 评测 成 
功 推荐 的 惊讶 级 别 。 换 句 话 说 ， 推 荐 应 该 是 意 想不到 的 。 相 比 之 下 ， 新 颖 度 仅仅 要 求 用 户 之 
前 不 熟悉 推荐 的 物品 。 惊 喜 度 比 新 颖 度 的 要 求 更 为 严格 。 所 有 的 惊喜 的 推荐 都 是 新 颖 的 ， 但 
是 反 过 来 却 不 一 定 正确 。 考 虑 这 样 一 个 例子 ， 一 个 用 户 经 常 在 印度 餐厅 里 面 吃饭 。 那 么 把 一 
个 新 的 巴基斯坦 餐厅 推荐 给 用 户 可 能 就 是 新 颖 的 ， 如 果 这 个 用 户 之 前 没有 在 这 个 餐厅 吃 过 
饭 。 但是， 这样 的 一 个 推荐 却 不 是 惊喜 的 ， 因 为 众所周知 的 是 印度 和 巴基斯坦 的 饮食 基本 是 
一 样 的 。 另 一 方面 ， 如 果 推 荐 系统 给 用 户 推荐 一 个 新 的 埃塞俄比亚 餐厅 ， 那 么 这 个 推荐 就 是 
惊喜 的 ， 因 为 它 并 不 常见 。 因 此 ， 认 识 惊喜 度 的 一 种 方式 就 是 从 “显著 性 ”出 发 。 

推荐 系统 中 有 几 种 评测 惊喜 度 的 方法 。 这 个 概念 也 会 在 信息 检索 应 用 的 上 下 文中 出 
现 [s7%] 。 评 估 惊 喜 度 的 在 线 和 离线 的 方法 4 如 下 所 示 : 

D 在 线 方法 : 推荐 系统 收集 用 户 对 推荐 的 有 用 性 和 显著 性 的 反馈 信息 。 那 部 分 既 有 
用 又 不 显著 的 推荐 被 作为 惊喜 度 的 测量 标准 。 

2) 离线 方法 : 也 可 以 使 用 一 种 原始 的 推荐 来 自动 产生 有 关 一 个 推荐 的 显著 性 的 信息 。 
那些 原始 的 推荐 系统 可 以 选用 基于 内 容 的 推荐 系统 ， 这 种 推荐 系统 有 推荐 显著 物品 的 习 
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惯 。 然 后 ， 可 以 确定 被 推荐 的 推荐 列表 里 面 正确 的 前 & 个 (比如 ,很 高 的 隐藏 评分 )， 且 
没有 被 之 前 的 推荐 系统 推荐 的 那些 物品 。 这 个 占 比 可 以 用 来 度量 惊喜 度 。 

值得 关注 的 是 ， 仅 仅 评测 那 部 分 不 显著 的 物品 是 不 够 的 ， 因 为 一 个 系统 可 能 推荐 不 相 
关 的 物品 。 因 此 ， 惊 喜 度 的 评价 往往 是 和 物品 的 有 用 性 紧密 结合 的 。 惊 喜 度 对 于 提高 推荐 
系统 的 转化 率 有 着 长 期 的 影响 ， 尽 管 其 有 时 会 违背 最 大 化 精确 度 这 一 目的 。 对 惊喜 度 的 一 
些 具体 定义 的 详细 讨论 参见 文献 [214，450]。 


7.3.6 多 样 性 


多 样 性 的 概念 意味 着 含有 单 值 推 荐 列表 的 被 推荐 集合 应 该 尽 可 能 是 多 种 多 样 的 。 例 
如 ， 考 虑 这 样 一 种 情况 ， 有 三 个 电影 被 推荐 给 用 户 在 列表 的 前 三 项 。 如 果 这 三 个 电影 是 同 
一 题材 而 且 有 相似 的 演员 ， 那 么 她 有 很 大 概率 全 部 都 不 喜欢 。 呈 现 给 用 户 多 样 化 类 型 的 电 
影 能 够 提高 用 户 选 择 其 中 之 一 的 概率 。 注 意 到 多 样 性 经 常 是 在 一 个 推荐 集合 中 来 测量 的 ， 
而 且 和 新 颖 度 及 惊喜 度 密切 相关 。 保 证 更 复杂 的 多 样 性 往往 能 够 提高 推荐 列表 的 新 颖 度 和 
惊喜 度 。 而 且 ， 推 荐 的 多 样 性 还 可 以 提高 系统 的 销售 多 样 性 和 类 别 覆 盖 率 。 

多 样 性 能 依据 两 两 用 户 的 内 容 相关 的 语意 相似 度 来 度量 。 物 品 的 空间 向 量 表示 被 用 来 
进行 相似 度 的 计算 。 例 如 ， 如 果 有 一 个 含有 & 个 物品 的 列表 推荐 给 用 户 ， 然 后 计算 物品 的 
列表 里 每 两 个 物品 的 相似 度 。 所 有 对 的 平均 相似 度 就 是 多 样 性 。 平 均 相 似 度 越 低 ， 就 表明 
多 样 性 越 高 。 与 使 用 精确 性 度量 的 情境 相 比 ， 多 样 性 经 常 可 以 提供 多 种 不 同 的 结果 。 对 多 
样 性 和 相似 度 的 关联 关系 的 讨论 请 参考 文献 【560]。 


7.3.7 健壮 性 和 稳定 性 


如 果 推 荐 系统 不 会 受到 “ 假 评分 攻击 ”或 “模式 随时 间 显著 变化 ”等 情况 的 影响 ， 那 
么 可 以 认为 推荐 系统 是 稳定 和 健壮 的 。 通 常情 况 下 ， 利 益 驱 动 等 动机 会 使 得 一 些 用 户 提供 
HABE 5p 458 829-393-444) 。 例 如 ， 在 亚马逊 购物 网 站 上 ， 一 本 书 的 作者 或 者 出 版 商 可 能 会 提 
供与 本 书 有 关 的 虚假 的 正面 评分 ， 或 者 会 给 竞争 对 手 的 图 书 提供 一 些 虚 假 的 负面 评分 。 推 
荐 系统 的 攻击 模型 会 在 本 书 的 第 12 章 进 行 讨 论 。 有 关 这 些 模 型 的 评估 也 会 在 那 一 章 进 行 
研究 。 相 应 的 评估 系统 健壮 性 和 稳定 性 的 方法 会 被 采用 来 抵御 攻击 。 


7.3.8 可 扩展 性 


最 近 几 年 ， 从 许多 用 户 那 里 收集 大 量 的 评分 和 隐 式 反馈 信息 变 得 越 来 越 容易 。 在 这 种 情 
况 下 ， 随 着 时 间 的 推移 ， 数 据 集 的 大 小 也 在 持续 增加 。 因 此 ,设计 出 能 够 有 效 且 高 效 地 处 理 
大 量 数 据 的 推荐 系统 也 变 得 越 来 越 重要 [7'528'587] 。 一 些 方法 可 以 用 来 决定 系统 的 可 扩展 性 。 

1) 训练 时 间 : 大 多 数 推荐 系统 要 求 一 个 训练 阶段 ， 这 个 阶段 是 独立 于 测试 阶段 的 。 
例如 ， 一 个 基于 近邻 的 协同 过 滤 算 法 可 能 需要 对 一 个 用 户 的 同类 群体 进行 预计 算 ， 而 一 个 
和 矩阵 分 解 系统 需要 确定 潜在 因子 。 被 要 求 用 来 训练 模型 的 总 体 时 间 也 是 一 种 评测 方法 。 在 
大 多 数 情 况 下 ， 训 练 是 在 离线 状态 下 进行 的 。 因 此 ， 只 要 训练 时 间 达 到 几 小 时 的 程度 ， 大 
部 分 设置 都 是 能 接受 的 。 

2) 预测 时 间 : 一 旦 一 个 模型 已 经 训练 形成 ， 它 会 被 用 来 确定 对 用 户 最 合适 的 推荐 。 
短 的 预测 时 间 至 关 重 要 ， 因 为 它 决 定 着 用 户 得 到 响应 的 等 待 时 间 。 

D 存储 需求 : 当 评 分 矩阵 非常 大 的 时 候 ， 如 何在 内 存 中 存储 整个 矩阵 也 是 一 项 挑战 。 
在 某 些 情况 下 ， 设 计 一 个 最 小 化 存储 需求 的 算法 是 很 有 必要 的 。 当 存储 要 求 变 得 非常 高 的 
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时 候 ， 在 大 规模 和 实际 设置 中 使 用 系统 是 有 困难 的 。 
由 于 大 数据 范式 日 益 增 长 的 重要 性 ， 近 年 来 ， 可 伸缩 性 的 重要 性 也 变 得 尤其 重要 。 


7.4 离线 推荐 评估 的 设计 要 点 


在 本 节 中 ， 我 们 将 讨论 推荐 评估 设计 的 要 点 。 本 节 和 下 节 的 讨论 都 关于 使 用 历史 数据 
集 的 离线 评估 系统 的 精确 性 。 为 了 确保 精确 性 不 被 过 分 高 估 或 者 低 佑 ， 用 这 样 的 方式 来 设 
计 推 荐 系统 是 极其 重要 的 。 例 如 ,你 不 能 用 同一 个 特定 的 评分 数据 集 来 训练 和 评估 。 如 果 
那样 做 ， 将 会 严重 高 佑 背后 算法 的 精确 性 。 因 此 ， 只 有 用 一 部 分 数据 来 训练 ， 然 后 用 剩 下 
的 数据 来 测试 。 这 个 评分 矩阵 是 典型 的 简单 的 关于 条 目的 流行 方法 。 换 名 话说 ， 数 据 项 的 
一 个 子 集 被 用 来 训练 ， 然 后 剩 下 的 数据 项 被 用 来 进行 精确 性 评估 。 注 意 到 这 种 方法 和 测试 
分 类 及 回归 建 模 算法 的 方法 是 类 似 的 。 主 要 的 区 别 是 分 类 和 回归 建 模 方法 抽样 调查 数据 集 
的 行 数据 ， 而 不 是 抽样 所 有 的 数据 。 这 种 区 别 是 因为 未 确定 的 记录 往往 会 被 强制 分 到 分 类 
的 类 变量 中 ， 然 而 评分 矩阵 里 面 的 每 一 个 记录 都 是 未 确定 的 。 因 为 推荐 和 分 类 问题 的 相似 
性 ， 评 估 推 荐 系统 的 设计 非常 类 似 于 分 类 评估 系统 的 设计 。 

推荐 系统 的 分 析 师 经 常会 犯 的 一 个 错误 就 是 使 用 相同 的 数据 集 来 进行 参数 调整 和 测试 系 
统 。 这 种 方法 会 过 分 高 估 精 确 性 ， 因 为 参数 调整 是 训练 的 一 部 分 ， 而 且 在 训练 过 程 中 使 用 测 
试用 数据 会 导致 过 拟 合 现象 。 为 了 防止 这 种 情况 的 发 生 ， 数 据 集 经 常 被 分 为 三 部 分 : 

1) 训练 数据 : 这 部 分 数据 被 用 来 构建 训练 模型 。 例 如 ， 在 隐 因 子 模型 中 ， 来自 评 分 
和 矩阵 的 这 部 分 数据 被 用 来 创建 隐 因 子 。 你 甚至 可 以 用 这 些 数据 来 建立 多 种 模型 ， 最 终 选 出 
在 手中 数据 集 上 运行 效果 最 好 的 那个 模型 。 

2) 验证 数据 : 这 部 分 数据 被 用 来 进行 模型 第 选 和 参数 调整 。 例 如 ， 可 通过 在 验证 数 
据 上 测试 精确 性 来 决定 隐 因 子 模型 中 的 参数 正则 化 。 如 果 从 训练 数据 集中 已 经 建立 了 多 种 
模型 ， 那么 就 可 以 利用 验证 数据 来 确定 每 种 模型 的 精确 性 并 且 选 出 其 中 最 佳 的 那 一 个 。 

3) 测试 数据 : 这 部 分 数据 被 用 来 测试 最 终 (调整 的 ) 模型 的 精确 性 。 为 了 防止 过 拟 
合 的 发 生 ， 在 参数 调整 以 及 模型 选择 的 过 程 中 ， 甚 至 都 不 能 浏览 测试 数据 。 只 有 在 每 个 过 
程 的 最 后 环节 才 可 以 使 用 测试 数据 。 而 且 ， 如 果 分 析 师 在 测试 数据 中 使 用 结果 集 ， 以 达到 
让 测试 数据 在 某 种 程度 上 适应 模型 的 目的 ， 那 么 测试 的 结果 将 会 受到 测试 数据 的 污染 。 

图 7-1a 给 出 了 把 评分 矩阵 分 解 为 训练 数据 、 验 证 数据 、 测 试 数据 的 例子 。 注 意 ， 验 
证 数据 也 有 可 能 被 当 作 训 练 数据 的 一 部 分 ， 因 为 它 能 用 来 创建 最 终 调整 的 模型 。 评 分 矩阵 
常见 的 分 解 比例 是 2 : 1 : 1。 换 名 话说， 评分 数据 的 一 半 被 用 来 建 模 ， 其 余 的 四 分 之 一 分 
别 被 用 来 进行 模型 选择 和 模型 测试 。 但 是 ， 当 评分 矩阵 的 规模 很 大 时 ， 用 其 中 一 小 部 分 数 
据 来 验证 和 测试 也 是 可 能 的 。 经 典 的 Netflix Prize 数据 集 案例 就 是 这 样 的 。 


7.4.1 Netflix Prize 数据 集 的 案例 研究 


Netflix Prize 数据 集 是 一 个 众所周知 用 在 协同 过 滤 方 法 里 的 特别 有 启发 的 数据 集 ， 因 
为 它 展示 了 Netflix 阻止 竞赛 参与 者 过 拟 合 的 特殊 历程 。 在 Netflix 数据 集中 ， 数 据 集 最 大 
部 分 包含 了 95. 91% 的 评分 数据 。 这 部 分 数据 集 典 型 地 被 测试 参与 者 用 来 建 模 。 另 外 
1. 36% 的 数据 集 被 参与 者 用 来 当 作 探测 集合 (probe set) 。 因 此 ， 建 模 数据 加 上 探测 集合 
数据 包含 了 95.91% 十 1. 36% 二 97.27% 的 数据 。 探 测 集合 主要 被 竞争 者 用 来 进行 多 种 多 样 
形式 的 参数 调整 和 模型 选择 ， 所 以 它 和 验证 集合 的 目的 很 相似 。 然 而 ， 不 同 的 参赛 者 使 用 
探测 集合 的 方式 不 同 ， 由 于 探测 集合 里 面 的 评分 数据 都 是 最 新 的 ， 所 以 有 关 训 练 集 和 探测 
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集合 中 评分 数据 的 统计 学 分 布 略微 有 所 不 同 。 对 于 组 合 方法 5 的 情况 ， 探 测 集 合用 来 了 
解 总 体 里 面 不 同 组 成 部 分 的 权重 值 。 相 关 评 分 (包括 探测 集合 ) 的 联合 数据 集 相 当 于 全 部 的 
训练 集 ， 因 为 它 是 被 用 来 构造 最 终 的 调整 后 的 模型 。 训 练 集 的 一 个 重要 的 特征 就 是 探测 集合 
和 训练 集中 建 模 部 分 的 分 布 并 不 是 完全 相同 的 ， 尽 管 探 测 集合 反映 了 含有 隐藏 评分 的 评估 集 
& (qualifying set) 的 统计 学 特征 。 造 成 这 种 差异 的 原因 就 是 大 部 分 的 评分 数据 是 相当 过 时 
的 ， 而 且 这 些 过 时 的 数据 并 不 会 影响 最 近 的 或 者 将 来 的 评分 数据 的 真实 分 布 。 与 训练 集中 占 
据 第 一 位 的 95. 91% 比 例 的 评分 相 比 ， 验 证 集合 和 评估 集合 都 是 基于 最 新 的 评分 数据 。 

剩 下 的 2.7% 的 数据 的 评分 是 隐藏 的 ,而 且 只 有 表 中 (User，Movie，GradeDate〉 的 
三 者 联合 体 没 有 被 提供 确切 的 评分 。 评 测 集合 的 一 个 主要 区 别 就 是 参与 者 可 以 把 他 们 在 评 
估 集 合 中 的 表现 提交 给 Netflix， 而 且 ， 通 过 一 个 排行 榜 把 在 探测 集合 上 的 表现 披露 给 参与 
者 。 尽 管 把 在 测验 集 上 的 表现 呈现 给 参与 者 是 很 重要 的 ， 以 便于 参与 者 能 够 对 他 们 的 测试 
结果 水 平 有 一 个 了 解 ， 但 是 这 样 做 会 带 来 一 个 问题 : 参与 者 可 能 会 利用 基于 排行 榜 上 他 们 
对 算法 的 了 解 ， 在 测试 集 上 反复 提交 并 训练 他 们 的 算法 。 很 显然 ， 虽 然 评 分 是 隐藏 的 ， 这 
样 做 也 会 因为 了 解 评测 集合 上 的 表现 而 给 结果 带 来 污染 。 因 此 ， 另 外 评估 集合 中 不 属于 评 
测 的 其 他 数据 将 被 用 作 测 试 集 ， 而 且 算 法 在 这 部 分 评估 集合 的 测试 结果 被 用 来 决定 奖金 评 
审 会 给 出 的 最 终 表 现 。 算 法 在 评测 集合 上 的 表现 除了 让 参与 者 在 测试 期 间 对 他 们 的 表现 有 
一 个 持续 的 了 解 以 外 ， 对 最 终 的 测试 结果 没有 影响 。 而 且 ， 参 与 者 不 会 被 告知 评估 集合 里 
面 究竟 是 哪 一 部 分 成 为 评测 。 这 些 安排 就 确保 了 一 个 真实 可 信 的 样本 外 的 数据 集 被 用 来 决 
定 谁 将 会 是 这 项 测试 的 最 终 获 胜 者 。 

Netflix 数据 集 的 总 体 分 配 图 如 图 7-1b 所 示 。 图 7-1b 和 图 7-1a 的 唯一 的 区 别 就 是 额外 的 
评测 集合 的 出 现 。 实 际 上 ， 以 任何 有 意义 的 方式 把 评测 集合 完全 移 除 而 不 影响 Netflix 的 测试 
结果 是 可 能 的 ， 只 不 过 参与 者 将 不 再 了 解 他 们 提交 的 结果 的 质量 。 确 实 ， 就 直到 结束 之 前 的 
训练 过 程 的 任何 阶段 都 不 使 用 在 测试 集 上 的 任何 表现 的 重要 性 而 言 ，Netflix Prize 评估 设计 
是 一 个 出 色 的 案例 。 研 究 和 实践 中 的 基准 则 经 常 以 各 种 各 样 的 方式 不 符合 这 些 标准 。 
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b) Netflix 大 奖 赛 数 据 集 的 划分 ( 未 按 比例 绘制 ) 
图 7-1 为 评估 设计 划分 评分 矩阵 


推荐 系统 评估 = 177 








7.4.2 为 训练 和 测试 分 解 评分 


在 实际 中 ， 真 实 的 数据 集 并 不 是 被 预先 分 为 训练 集 、 验 证 集 和 测试 集 。 因 此 ， 能 够 自 
动 地 把 评分 矩阵 的 数据 分 割 为 这 几 部 分 是 很 重要 的 。 大 部 分 像 hold-out 和 交叉 验证 这 样 可 
行 的 分 割 方法 被 用 来 把 数据 集 分 成 两 部 分 而 不 是 三 部 分 。 但 是 如 下 文 所 示 ， 得 到 三 部 分 
也 是 可 行 的 。 通 过 首先 把 评分 数据 分 为 训练 集 和 测试 集 ， 然 后 进一步 从 训练 数据 划分 出 验 
证 集 部 分 ， 这 样 就 能 够 获得 要 求 的 三 部 分 集合 。 因 此 ， 接 下 来 ， 我 们 将 讨论 如 何 用 诸如 
hold- out 和 交叉 验证 的 方法 把 评分 矩阵 分 解 为 训练 部 分 和 测试 部 分 。 但 是 ， 这 些 方 法 还 可 
以 用 来 把 训练 数据 分 解 为 建 模 部 分 和 验证 部 分 。 这 种 分 级 拆 分 已 经 在 图 7-2 中 阐述 过 。 接 
下 来 ， 我 们 会 一 贯 地 使 用 图 7-2 中 一 级 拆 分 得 到 “训练 集 ” 和 “测试 集 *， 甚 至 在 第 二 级 
拆 分 中 用 同样 的 方法 得 到 建 模 数 据 和 验证 数据 。 这 种 术语 上 的 连贯 性 是 为 了 避免 混淆 。 








用 hold-out 或 交叉 
验证 进行 划分 


用 hold-out 或 交叉 
验证 进行 划分 


图 7-2 将 评分 项 进行 分 层 划分 为 : 训练 集 、 验 证 集 和 测试 集 


7.4.2.1 Hold-out 

在 保持 方法 中 ， 评 分 和 矩阵 中 的 一 部 分 数据 是 隐藏 的 ， 而 且 剩 下 的 部 分 被 用 来 构建 模 
型 。 然 后 把 预测 隐藏 评分 的 精确 性 称 为 总 体 精 确 性 。 这 样 的 方法 确保 了 报告 精确 性 不 是 对 
特定 数据 集 过 拟 合 的 结果 ， 因 为 在 训练 过 程 中 用 来 评估 的 那 部 分 数据 是 隐藏 的 。 然 而 ， 这 
样 的 方法 会 低估 真实 的 精确 性 。 首 先 ， 训 练 过 程 没有 使 用 全 部 的 数据 ， 因 而 没有 发 挥 数据 
的 全 部 作用 。 其 次 ， 考 虑 到 和 评分 矩阵 的 总 体 平 均值 相 比 ， 隐 藏 部 分 的 数据 有 一 个 更 高 的 
平均 值 。 这 会 导致 评估 系统 不 好 的 偏差 。 

7.4.2.2 交叉 验证 

在 交叉 验证 方法 中 ， 评 分 记录 被 划分 为 g 个 相同 大 小 的 集合 。 因 此 ， 如 果 S 是 一 个 评 
DEAR 的 具体 记录 的 集合 ， 那 么 每 个 集合 中 就 记录 的 数量 大 小 而 言 就 是 |S|/g。g 部 分 
中 有 一 部 分 被 用 来 测试 , 剩 下 的 〈g 一 1) 部 分 被 用 来 训练 。 换 名 话说 ， 每 次 训练 过 程 中 ， 
FEA | S| /q 条 记录 被 隐藏 ， 然 后 利用 这 些 隐 藏 的 记录 来 评估 方法 的 精确 性 。 通 过 分 别 把 这 
g 个 集合 当 作 测 试 集 ， 训 练 过 程 重复 了 9 次 。 然 后 得 出 在 g 个 不 同 的 测试 集 上 的 平均 精确 


O ”在 实际 的 方法 设计 中 ， 例 如 交叉 验证 ， 情 况 会 更 加 复杂 一 些 ， 即 使 是 在 训练 的 特定 执行 阶段 中 ， 数 据 总 是 被 
分 成 两 部 分 ， 它 们 仍 会 以 多 种 不 同方 式 被 分 段 。 
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PE. TER. q 的 值 很 大 的 时 候 ， 这 种 方法 能 够 很 接近 评估 真实 精确 性 。 一 个 特殊 的 情况 
就 是 q 的 选取 值 几乎 等 于 评分 矩阵 中 的 具体 记录 数 。 因 此 ，|S| 一 1 条 评分 记录 被 用 来 训 
练 ， 然后 一 条 记录 被 用 来 测试 。 这 种 方法 指 的 就 是 留 一 交叉 验证 。 尽 管 这 样 的 一 个 方法 能 
够 很 接近 于 精确 性 ， 但 是 通常 情况 下 训练 模型 |S| 次 的 代价 太 过 昂贵 。 实 际 上 ，g 经 常 是 
一 个 固定 值 ， 比 如 10。 尽 管 如 此 , 将 留 一 交叉 验证 方法 用 在 基于 近邻 的 协同 过 滤 算 法 的 特 
殊 情况 下 也 不 是 特别 难 实现 。 


7.4.3 与 分 类 设计 的 比较 


协同 过 滤 的 评估 设计 和 分 类 的 评估 设计 是 很 相似 的 。 这 并 不 是 一 个 巧合 。 协 同 过 滤 是 
分 类 问题 的 一 种 泛 化 ， 在 协同 过 滤 中 任何 丢失 的 记录 都 能 被 预测 而 不 是 简单 地 选取 一 个 特 
别 的 变量 ， 这 些 被 预测 的 记录 被 命名 为 因 变 量 。 协 同 过 滤 和 分 类 方法 的 主要 区 别 是 分 类 中 
的 数据 是 基于 行 (在 训练 和 测试 行 之 间 ) 分 段 的 ， 相 比 之 下 ， 协同 过 滤 中 的 数据 是 基于 物 
品 《 在 训练 和 测试 项 之 间 ) 分 段 的 。 这 种 不 同 很 贴切 地 反映 出 分 类 问题 和 协同 过 滤 问 题 的 
本 质 。 有 关 分 类 问题 上 下 文 的 评估 设计 的 讨论 请 参见 文献 [18, 22]. 

还 有 一 个 和 分 类 设计 不 同 的 地 方 就 是 协同 过 滤 中 隐藏 评分 的 表现 经 常 不 能 反映 系统 在 
真实 设 定 中 的 真实 表现 。 这 是 因为 隐藏 评分 并 不 是 从 矩阵 中 随机 选择 的 。 相 反 ， 这 些 隐 茂 
评分 是 用 户 已 经 选择 的 典型 物品 。 因 此 ， 这 些 记录 的 评分 值 有 很 大 概率 比 缺 失 的 真实 值 更 
大 。 这 是 样本 选择 误差 问题 。 尽 管 这 种 问题 也 会 出 现在 分 类 中 ， 但 是 在 协同 过 滤 中 出 现 的 
更 为 普遍 。 在 7.6 节 中 会 给 出 有 关 这 个 问题 的 简短 讨论 。 


7.5 离线 评估 的 精确 性 指标 


离线 评估 能 通过 测量 预测 评分 值 的 精确 性 (如 RMSE) 或 者 测量 推荐 条 目 排 名 的 精确 
性 来 实施 。 后 者 方法 的 逻辑 性 是 推荐 系统 经 常 提供 物品 的 排名 而 不 是 显 式 地 预测 分 数 。 基 
于 排名 的 方法 经 常 关注 的 是 排行 榜 中 前 个 物品 的 精确 性 而 不 是 所 有 的 物品 。 这 在 隐 式 反 
馈 的 数据 集中 特别 正确 。 但 是 在 显 式 评分 的 情况 下 ， 基 于 排名 的 评估 提供 一 个 有 关 推 荐 系 
统 真 实 可 用 性 的 更 加 切实 可 行 的 角度 ， 因 为 用 户 仅 仅 关注 前 个 物品 而 不 是 所 有 物品 。 但 
是 ,一般 基准 更 偏爱 预测 评分 的 精确 性 ， 因 为 它 简 洁 。 在 Netflix Prize 竞赛 中 ，RMSE 方 
法 被 用 来 做 最 终 评估 。 接 下 来 ， 两 种 形式 的 精确 性 评估 都 会 讨论 。 


7.5.1 度量 预测 评分 的 精确 性 


离线 实验 的 评估 设计 一 旦 被 最 终 确定 下 来 ,精确 性 评估 就 需要 在 测试 集 上 进行 测量 。 
正如 之 前 讨论 过 的 那样 ， 让 S 代表 具体 (观察 ) 数据 的 集合 ， 而 且 属 于 ECS 代表 测试 集 
中 用 来 评估 的 那 部 分 数据 集合 。E 中 的 每 一 个 记录 是 成 对 地 以 用 户 一 物品 为 索引 的 Cu, j) 
值 ， 对 应 于 评分 矩 了 泗 中 的 相应 位 置 。 注 意 到 集合 EE 可 能 相当 于 在 hold-out 方法 中 提 到 的 
held out 记录 和 集 ， 或 者 它 也 可 能 相当 于 交叉 验证 方法 中 的 大 小 为 | S|/gq 的 那 部 分 数据 集 。 

Sry 表示 每 个 被 测试 集 使 用 的 (ux，j)EE 记录 的 隐藏 值 ，rw 表示 使 用 具体 的 训练 算 
法 预测 的 (wu，j) 的 评分 值 。 用 ew 二 7w 一 rw 表示 具体 记录 的 误差 。 可 以 在 任何 使 用 了 集 
合 E 中 记录 做 评估 的 实验 中 ， 用 多 种 方法 来 利用 这 个 误差 计算 总 体 误差 。 一 个 例子 就 
是 MSE: 


2 
Cw 


MSE = “HET (7-4) 
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很 显然 ，MSE 值 越 小 ， 表 明 实 验 过 程 表 现 越 优秀 。 其 平方 根 称 为 均 方 根 误差 (RMSE), 
它 也 经 常用 来 取代 MSE. 


2 
euj 


RMSE = Et (7-5) 
均 方 根 误差 是 以 评分 为 单元 ， 而 不 是 像 MSE 那样 以 评分 的 平方 为 单元 。 均 方 根 误差 被 用 
来 作为 Netflix Prize 竞赛 的 标准 指标 。 均 方 根 误差 的 一 个 特征 就 是 它 倾向 于 惩罚 大 误差 ， 
因为 在 求 和 中 有 平方 项 。 一 种 称 为 MAE 的 评测 方法 不 会 倾向 于 惩罚 大 的 误差 : 


| eu | 


— uj)EB = 
MAE “T (7-6) 


其 他 的 相关 方法 ， 如 归 一 化 均 方 根 误 差 (NRMSE) 和 归 一 化 平均 绝对 误差 (NMAE) 都 
是 以 同样 的 方法 定义 的 ， 只 不 过 需要 各 自 除 以 评分 范围 rex 一 rmin : 
NRMSE = _ RMSE _ 


Tmax — Tmin 

MAE 
Tmax — Tmin 
RMSE 和 MAE 归 一 化 之 后 的 值 通常 在 (0, 1) 的 区 间 范 围 内 ， 因 此 它们 从 直觉 的 角度 来 
看 更 容易 解释 。 用 这 些 值 来 比较 一 个 特定 的 算法 在 包含 不 同 规模 评分 的 不 同 数据 集 上 的 表 
现 也 是 可 行 的 。 

7.5.1.1 RMSE 与 MAE 

RMSE 或 者 MAE 哪个 作为 评测 指标 更 好 ? 这 个 问题 没有 一 个 明确 的 答案 ， 因 为 这 取 
决 于 具体 的 应 用 。 因 为 RMSE 计算 的 时 候 用 的 是 误差 的 平方 ， 所 以 它 更 加 显著 地 被 大 的 
误差 值 或 者 异常 值 所 影响 。 一 些 被 预测 失败 的 评分 会 显著 地 破坏 RMSE 方法 。 在 各 种 评 
分 的 预测 健壮 性 非常 重要 的 应 用 中 ，RMSE 可 能 会 是 一 个 更 加 合适 的 方法 。 另 一 方面 ， 当 
评估 的 异常 值 有 限时 ，MAE 能 更 好 地 反映 精确 性 。RMSE 主要 的 问题 是 它 不 是 平均 误差 
的 真实 反映 ， 而且 它 有 时 会 导致 有 误导 的 结果 [5 下。 有 关 两 种 评测 方法 的 相对 效益 的 讨论 
请 见 [141]. 

7.5. 1.2 长 尾 效应 的 影响 

这 些 指 标 有 一 个 共同 的 问题 就 是 它们 被 那些 流行 物品 的 评分 严重 影响 。 那 些 很 少 有 人 
评分 的 物品 却 被 忽略 了 。 正 如 在 第 2 章 中 讨论 过 的 那样 ， 评 分 矩阵 展现 出 一 种 长 尾 特征 ， 
表明 大 部 分 物品 很 少 被 购买 或 者 评分 。 我 们 把 第 2 章 中 的 图 2-1 复制 到 图 7-3， 其 中 X 坐 
标 代表 物品 的 流行 度 降 低 指 数 ， 而 Y 轴 表 明 评分 频率 。 显 而 易 见 的 是 ， 只 有 一 小 部 分 物品 
收 到 了 大 量 的 评分 ， 相 比 之 下 大 部 分 剩 下 的 物品 获得 很 少 的 评分 。 而 后 者 形成 了 长 尾 效 
应 。 遗 憾 的 是 ， 长 尾 中 的 那些 物品 经 常 给 商家 贡献 大 量 的 利润 中 。 因 此 ， 在 评估 过 程 中 ， 
最 重要 的 那些 物品 受到 的 重视 最 少 。 而 且 ， 由 于 大 量 的 局 部 稀 朴 性 ， 想 预测 长 尾 中 的 那些 
物品 的 评分 往往 很 难 0Q"j]。 因 此 ， 典 型 地 ， 在 稀 疏 物品 上 的 预测 精确 性 和 在 流行 物品 上 的 
精确 性 是 明显 不 同 的 。 解 决 这 种 问题 的 一 种 方法 就 是 为 每 个 物品 所 有 的 隐藏 评分 单独 计算 
RMSE 或 者 MAE， 然 后 再 求 出 不 同 物品 的 加 权 平 均值 。 换 名 话说 ， 式 (7- 5) 和 式 (7-6) 
中 的 精确 性 计算 方法 能 用 与 物品 相关 的 权重 来 加 权 ， 这 取决 于 商家 的 相关 重要 性 、 利 润 或 
者 实用 性 。 也 可 以 用 与 用 户 有 关 的 权重 (而 不 是 物品 的 相关 权重 ) 来 完成 计算 ， 尽 管用 户 
相关 权重 实际 的 适用 性 是 有 限 的 。 
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图 7-3 评分 频率 的 长 尾 效应 (回顾 第 2 章 的 图 2-1) 


7.5.2 通过 相关 性 评估 排名 


前 面 提 到 的 方法 是 设计 用 来 评估 用 户 一 物品 组 合 实际 评分 值 的 预测 精确 性 。 实 际 上 ， 
推荐 系统 为 用 户 产生 了 物品 的 排名 ， 而 且 推 荐 了 其 中 的 前 个 物品 。 其 中 的 值 是 随 系 
统 、 物 品 、 用 户 的 变化 而 变化 。 总 的 来 说 ， 相 对 于 评分 不 高 的 物品 来 说 ， 那 些 排名 靠 前 评 
分 很 高 的 物品 还 是 值得 拥有 的 。 考 虑 到 一 个 用 户 w， 物 品 集合 五 中 的 评分 已 经 通过 hold- 
out 或 者 交叉 验证 策略 被 隐藏 。 例 如 ， 为 了 评估 目的 ， 用 户 w( 行 ) 的 物品 〈 列 ) 的 值 是 
1, 3, 5 的 评分 项 被 隐藏 ， 然 后 得 到 集合 I 二 {1,3,5}。 

我 们 想 测 量 集合 五 中 的 评分 值 排名 和 推荐 系统 给 出 的 预测 排名 究竟 有 多 像 。 一 个 需要 
牢记 在 心 的 要 点 就 是 ， 这 些 评分 是 典型 地 从 分 离 的 规模 中 选择 的 ， 而 且 很 多 贴近 于 真实 水 
平 。 因 此 ， 当 两 个 物品 很 接近 的 时 候 ， 不 要 通过 把 一 个 物品 排 在 另 一 个 物品 之 前 来 惩罚 系 
统 ， 这 对 于 排名 方法 是 很 重要 的 。 最 常用 的 那些 方法 就 是 使 用 排名 相似 度 。 以 下 是 两 种 最 
常见 的 使 用 排名 相似 度 的 方法 : 

1) Spearman 等 级 相关 系数 : 第 一 步 是 把 所 有 的 物品 从 1 到 | 玉 | 排名 ， 同 时 对 推荐 系 
统 预 测 值 和 参考 标准 值 。Spearman 相关 系数 其 实 就 是 简单 地 把 皮尔 逊 相关 系数 应 用 在 物 
品 的 排名 上 。 计 算 值 往往 在 区 间 (一 1， 十 1) 之 间 ， 而 且 越 大 的 正 值 越 可 取 。 

Spearman 相关 系数 是 特定 于 用 户 的， 然后 对 所 有 的 用 户 的 系数 求 一 个 平均 值 来 得 
到 全 局 值 。 或 者 ，Spearman 等 级 相关 系数 能 够 通过 一 次 性 地 计算 所 有 用 户 上 的 隐藏 评分 
来 获得 ， 而 不 是 只 计算 特定 用 户 的 值 并 且 求 它们 的 平均 值 。 

这 种 计算 方法 有 一 个 问题 就 是 真实 值 可 能 会 有 一 些 约束 ， 而 且 随 机 地 打破 约束 的 方法 
可 能 在 评估 过 程 中 产生 噪声 。 为 此 ， 使 用 了 一 个 叫 作 约束 校正 的 Spearman 方法 。 操 作 这 
种 校正 的 一 个 方法 就 是 使 用 所 有 约束 的 平均 等 级 ， 而 不 是 使 用 随机 的 打破 约束 。 例 如 ， 在 
一 个 包含 4 个 物品 的 列表 中 ， 如 果 排 名 前 两 名 的 物品 评分 真实 值 是 相同 的 ， 那 么 我 们 可 能 
就 使 用 等 级 列表 (1.5, 1.5, 3, 4} 而 不 是 等 级 列表 (1, 2, 3, 4}, 
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2) 肯 德 尔 等 级 相关 系数 : 对 于 每 一 对 7 , kE 的 物品 ， 下 面 的 信用 值 通 过 对 比 物品 
的 系统 预测 等 级 和 真实 等 级 来 计算 
+1 如 果 物 品 7 和 物品 有 同样 的 相关 性 在 真实 排名 和 预测 排名 中 ( 同 序 ) 
cow =! 如 果 物 品 7 和 物品 & 有 不 同 的 相关 性 在 真实 排名 和 预测 排名 中 ( 异 序 ) 
0 ”如 果 物 品 j 和 物品 不 相关 地 在 真实 排名 和 预测 排名 中 
(7-7) 
然后 ， 特 定 于 用 户 u 的 肯 德 尔 等 级 相关 系数 元 ， 在 一 共有 |I | (II | 一 1)/2 个 物品 对 上 的 
所 有 的 C(j，k) 的 平均 值 : 
SICG >) 


L LLa - 
Ts Ti ED (7-8) 
; 2 


一 个 不 同 的 理解 肯 德 尔 等 级 相关 系数 的 方法 如 下 : 
_ 同 序 对 数量 一 逆序 对 数量 
I, 中 的 对 数 

注意 ， 这 个 值 是 和 用 户 的 肯 德 尔 系数 相关 的 。 值 元 可 能 通过 计算 所 有 用 户 的 平均 值 来 得 到 
一 个 启发 的 全 局 度量 。 或 者 也 可 以 使 用 式 〈7- 8) 来 计算 所 有 隐藏 的 用 户 -物品 对 的 肯 德 
尔 系数 ， 而 不 是 仅仅 使 用 用 户 “来 得 到 一 个 全 局 的 值 T。 

当然 还 有 一 系列 其 他 的 方法 ， 比 如 文献 中 已 经 提出 过 的 归 一 化 的 基于 距离 的 表现 方法 
(NDPM), ， 详 情 请 参见 7. 8 节 。 


7.5.3 通过 效用 评估 排名 


在 之 前 的 讨论 中 ， 我们 用 真实 排名 来 和 推荐 系统 给 出 的 预测 排名 进行 比较 。 基 于 效用 
的 方法 使 用 的 是 真实 评分 结合 推荐 系统 排名 。 对 于 隐 式 反馈 的 数据 集 的 情况 ,评分 值 被 一 
个 0 一 1 之 间 的 值 所 代替 ， 这 取决 于 用 户 是 否 购买 此 物品 。 基 于 效用 方法 的 总 体 目 标 就 是 
给 出 用 户 可 能 找到 推荐 系统 排名 的 有 用 程度 的 简单 量化 。 这 种 方法 下 隐 含 的 一 个 重要 准则 
就 是 相对 于 物品 的 总 量 而 言 ， 推 荐 列表 是 简短 的 。 因 此 ， 一 个 具体 评分 的 效用 大 部 分 情况 
下 应 该 基于 在 推荐 列表 中 相关 性 高 的 物品 。 这 种 情况 下 ，RMSE 指标 有 一 个 缺点 ， 因 为 它 
对 低 排名 物品 和 那些 高 排名 物品 赋予 了 同样 的 权重 。 已 经 提 到 过 573 的 是 在 高 评分 物品 
中 ，RMSE 指标 即使 是 像 1% 这 样 小 的 改变 也 能 造成 超过 15% 的 大 改变 。 这 些 高 评分 物品 
恰恰 是 推荐 系统 的 用 户 实际 看 到 的 。 相 应 地 ， 基 于 效用 的 方法 通过 重视 高 排名 物品 来 量化 
推荐 列表 的 效用 。 

和 之 前 章节 一 样 ， 在 评估 之 前 我 们 假设 1 集合 中 每 个 项 评分 的 真实 值 是 被 推荐 系统 隐 
藏 的 。 在 这 里 ,五 集合 代表 被 用 户 u 评分 的 项 列表 ， 这 些 项 在 评估 之 前 也 是 被 推荐 系统 隐 
藏 的 。 我 们 将 同时 生成 特定 用 户 和 全 局 效用 的 定量 值 。 

在 基于 效用 的 排名 中 ， 基 本 思想 是 集合 I 中 的 每 个 物品 对 用 户 来 说 有 一 个 效用 ， 这 个 
效用 同时 取决 于 该 物品 在 推荐 列表 中 的 位 置 和 在 真实 情况 下 的 评分 。 真 实 值 排 名 较 高 的 物 
品 显然 对 用 户 有 更 大 的 效用 。 而 且 ， 推 荐 列表 中 排名 靠 前 的 物品 也 对 用 户 i 有 着 更 大 的 效 
用 ， 因 为 用 户 往往 更 倾向 于 注意 “因为 位 置 的 优势 ) 并 最 终 选 择 这 些 项 。 理 想 情 况 下 ， 用 
户 更 想 选 择 那 些 在 真实 评分 中 排名 和 在 推荐 列表 中 排名 都 靠 前 的 物品 。 

那么 如 何 来 定义 这 些 基 于 评分 和 基于 排名 的 要 素 呢 ?对 于 任意 物品 jE€ 1,， 它 对 于 用 
P i 的 基于 排名 的 效用 假定 是 max{rw 一 Cs，0}， 其 中 Cs 代表 用 户 u 的 中 立 评分 。 例 如 ， 


aH (7-9) 
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Ci 可 以 被 设置 为 用 户 ROR. TT. Da A EE RA 2, 
其 中 代表 的 是 推荐 物品 列表 中 物品 j 的 排名 而 且 a 是 半衰期 参数 。 换 句 话 说 ， 基 于 排名 
的 效用 是 随 着 物品 排名 以 指数 形式 衰减 的 ， 而 且 效 用 随 着 排名 的 下 降 ，a 以 2 的 指数 倍 降 
低 。 基 于 衰减 的 排名 要 素 的 逻辑 是 为 了 确保 一 个 特定 物品 的 最 终 效用 主要 是 由 列表 项 部 的 
少数 物品 来 调节 的 。 毕 竞 ， 用 户 很 少 去 浏览 那些 在 列表 中 位 置 很 靠 后 的 物品 。 用 户 的 物 
im j ET 的 效用 FC(u,j) 被 定义 为 基于 评分 的 效用 值 和 基于 排名 的 效用 值得 到 : 


max{ru; — G30) 


F(u,j) = 2(w—D/a (7-10) 
关于 用 户 u 的 R-score 度量 等 于 在 集合 L 的 所 有 隐藏 评分 中 对 下 (wx,7) RA. 
R-score(u) = >) F (uj) (7-11) 
PET 


注意 ,vj 可 以 取得 Ion 之 间 的 任意 值 ， 其 中 是 物品 总 量 。 然 而 ， 实 际 上 ， 用 户 经 常 限 
制 推荐 列表 的 大 小 最 大 值 为 工 。 用 户 因此 能 在 一 个 特定 大 小 为 工 的 推荐 列表 上 而 不 是 使 用 
全 部 物品 集 来 计算 R-score， 公 式 如 下 : 

R-score(u) = >) vj < LF usj) (7-12) 

jel, 

所 以 排名 低 于 工 的 项 对 于 用 户 来 说 是 没有 效用 的 ， 因 为 推荐 列表 的 大 小 是 工 。 这 种 差异 是 
基于 与 物品 总 量 相 比 推荐 列表 往往 很 短 这 样 的 准则 。 总 体 的 R-score 值 能 通过 对 所 有 用 户 
的 值 求 和 来 计算 得 到 。 


R- score = S$} R- score(u) (7-13) 
u=1 


效用 值 的 衰减 越 来 越 快 表明 用 户 只 对 那些 排名 靠 前 的 物品 感 兴趣 ， 而 且 他 们 不 会 过 多 关注 
那些 低 排 名 的 物品 。 这 在 很 多 应 用 中 是 不 正确 的 ， 尤 其 是 在 新 闻 推 荐 系统 中 ， 因 为 新 闻 系 
统 的 用 户 通常 浏览 推荐 列表 底 端的 那些 条 目 。 在 这 种 情况 下 ， 折 扣 率 应 该 以 相对 温和 的 方 
式 被 设置 。 这 种 方法 的 一 个 例子 就 是 折扣 累计 收益 DCG。 这 种 情况 下 ， 物 品 j 的 折扣 因子 
被 设 定 为 logz (vj 十 1)， 其 中 vv 是 物品 ;7 在 测试 集 I, 中 的 排名 。 然 后 ， 如 下 定义 折扣 累积 
收益 : 


DCG = — (7-14 
P A T ) 


ERE, gy RAP u 从 物品 j 中 获得 的 效用 。 典 型 地 ，gw 的 值 通过 一 个 含有 相关 性 
(比如 非 负 评分 或 者 用 户 点 击 率 ) 的 指数 函数 来 设 定 : 

gw 一 2rlu 一 1 (7-15) 
在 这 里 ，relw 是 用 户 x 和 物品 7 的 真实 相关 性 ， 它 是 通过 评分 值 或 者 点 击 率 的 启发 函数 来 
计算 。 在 很 多 设置 中 ， 使 用 未 经 处 理 的 评分 数据 。 在 特定 大 小 为 工 的 推荐 列表 上 计算 
DCG 是 很 常见 的 ， 而 不 是 使 用 所 有 的 物品 。 


eet eek i : 
DCG = 1S Yo < Loua 3 (7-16) 


基本 观点 是 推荐 列表 的 大 小 不 能 超过 工 。 
然后 ， 归 一 化 折扣 累计 收益 CNDCG) 被 定义 为 折扣 累计 收益 和 它 的 理想 值 的 比值 ， 
这 个 理想 值 又 叫 理 想 化 的 折扣 累计 收益 〈IDCG) 。 


" ped j 
NDCG = PCG (7-17) 


推荐 系统 评估 183 





其 中 ， 理 想 化 折扣 累计 收益 是 通过 反复 计算 DCG 得 到 的 ， 除 此 之 外 真实 排名 被 用 来 计算 。 
另 一 种 被 广泛 使 用 的 方法 是 平均 道 命中 率 〈ARHRJ)55 。 这 种 方法 是 为 隐 式 反馈 数 
据 集 而 设计 的 ， 这 个 数据 集中 每 个 数据 rw €E {0,1}。 因 此 ，rw =1 代表 的 是 “ 击 中 ”， 这 种 
情况 下 用 户 已 经 购买 或 者 点 击 物品 。rw =0 相当 于 是 用 户 没 有 购买 或 者 点 击 某 个 物品 的 情 
况 。 在 这 种 隐 式 反馈 的 设置 中 ， 评 分 矩阵 中 缺失 的 值 全 部 假定 为 0。 
这 种 情况 下 ， 基 于 排名 的 折扣 率 是 1/v;， 其 中 vj 指 的 是 物品 j 在 推荐 列表 中 的 排名 ， 
而 且 物 品 的 效用 简单 地 用 介 于 0 和 1 之 间 的 隐藏 评分 值 rwj 来 代 蔡 。 注 意 ， 这 个 折扣 率 没有 
R- score 指标 变化 剧烈 ， 但 是 却 比 DCG 变化 快 。 因 此 ， 联 合 后 的 物品 的 效用 就 是 rw /vj 。 这 
个 表达 式 代表 集合 I 中 的 物品 i 的 贡献 。 然 后 ， 用 户 i 的 ARHR 指标 被 定义 为 在 集合 I 
上 的 所 有 隐藏 条 目 求 和 。 
ARHR(u) = >) 孜 (7-18) 
jer, Cs 
通过 只 添加 vw 二 LL 的 效用 值 来 定义 一 个 容量 为 工 大 小 的 推荐 列表 的 ARHR 值 也 是 可 
能 的 。 
ARHR(u) = Dv <L (7-19) 
j€l, bei 
KF ARHR 的 一 个 巧合 就 是 典型 地 在 | I | 确定 为 1 时 ， 而 且 集合 五 中 相关 〈 隐 藏 
物品 7 的 rwj 的 值 也 往往 是 1。 因 此 ， 对 于 每 个 用 户 来 说 ,确切 地 只 有 一 个 隐藏 物 品 ， 而 且 
用 户 经 常 购买 或 者 点 击 这 个 物品 。 换 句 话 说 ，ARHR 值 奖励 效用 (通过 一 个 逆 排 名 的 方 
式 ) 为 了 推荐 在 推荐 列表 中 的 唯一 正确 的 排名 很 高 的 答案 。 这 就 是 在 文献 [181] 介绍 的 
方法 使 用 时 的 设置 ， 尽 管 就 隐藏 物品 的 数量 和 显 式 反馈 设置 而 言 ， 用 户 可 以 归纳 到 很 多 
武断 的 设置 中 去 。 上 述 公式 提供 了 这 个 概括 性 的 定义 ， 因 为 用 户 可 以 在 一 个 显 式 反馈 设 
置 中 使 用 任意 大 小 的 集合 五 。 全 局 ARHR 值 就 是 通过 在 m 个 用 户 群 上 求 平均 值 来 计 
算 的 : 


>) ARHR(u) 
ARHR = “= (7-20) 


m 

ARHR 也 被 称 作 是 平均 倒数 排 名 (MRR)。 在 |1 | 值 为 1 的 情况 下 ，ARHR 值 经 常 
落 在 区 间 (0，1) 中 。 在 这 种 情况 下 ， 隐 藏 物品 经 常 是 =1 的 物品 而 且 推 荐 列表 的 长 度 
被 限定 为 工 。 注 意 到 这 些 情 况 下 ， 只 有 “命中 ” 值 决定 了 效用 。 这 种 方法 的 一 种 简化 形式 
是 命中 率 ， 其 中 没有 使 用 逆 排 名 权重 ， 而 且 | 五 | 的 值 确定 为 1。 因 此，HR 仅仅 是 长 度 为 
工 的 推荐 列表 中 包含 正确 答案 的 用 户 的 一 部 分 。HR 的 缺点 是 对 每 次 命中 赋予 了 相同 的 重 
要 性 ， 而 不 考虑 它 在 推荐 列表 中 的 排名 。 

ARHR 和 HR 也 经 常 使 用 在 隐 式 的 数据 集中 ， 其 中 缺失 值 被 当 作 0。 尽 管 如 此 ， 还 是 
以 一 种 更 加 普遍 的 方式 重新 定义 式 (7- 19)。 这 种 定义 也 能 被 用 在 显 式 反馈 数据 集中 的 上 
下 文中 ， 数 据 集 中 的 值 x 不 需要 被 划 定 在 (0, 1) 范围 。 这 种 情况 下 ， 每 个 用 户 的 任意 数 
量 的 物品 的 评分 值 都 是 隐藏 的 ， 而 且 隐 藏 评 分 的 值 也 是 任意 的 。 而 且 ， 缺 失 值 不 必 再 被 当 
作 0 看待， 而 且 五 通常 是 从 观看 的 物品 中 来 选择 。 

一 个 相关 的 方法 是 MAP， 这 种 方法 通过 为 给 定 的 用 户 计 算 推 荐 列表 中 的 一 部 分 相关 
物品 来 实现 。 各 种 各 样 同 样 放 置 的 值 工 被 使 用 ， 而 且 精 确 度 是 在 多 种 长 度 的 推荐 列表 中 求 
平均 值得 到 。 再 通过 在 所 有 用 户 上 求 平均 值得 到 最 终 的 精确 性 。 
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还 有 很 多 别 的 评测 方法 已 经 在 评估 排名 有 效 性 的 文献 资料 中 呈现 出 来 。 例 如 ，lift in- 
dexl36 变量 通过 把 排名 物品 分 为 几 部 分 来 计算 效用 分 数 。 具 体 请 参考 7. 8 节 。 


7.5.4 通过 ROC 曲线 评估 排名 


排名 方法 被 频繁 使 用 在 实际 消费 物品 的 评估 中 。 例 如 ，Netflix 可 能 给 用 户 推荐 一 个 
有 排名 的 物品 集合 ， 而 且 用 户 最 终 接 受 的 可 能 只 是 这 些 物品 中 的 一 部 分 。 因 此 ， 这 些 方法 
很 好 地 适用 于 隐 式 反馈 数据 集中 ， 比 如 销售 、 网 络 广告 点 击 量 或 者 电影 观看 量 。 这 些 行为 
能 通过 一 元 评分 矩阵 的 形式 表现 出 来 ， 其 中 和 矩阵 的 缺失 值 可 以 被 当 作 0。 所 以 ， 真 实情 况 
是 一 个 二 元 世界 。 

那些 最 终 被 消费 的 物品 也 指 的 是 像 真实 正 值 或 者 真正 的 正 数 。 推 荐 算法 能 提供 一 个 包 
含 任何 数量 的 排名 列表 。 可 是 这 些 物 品 中 究竟 有 多 大 比例 是 相关 的 ? 有 关 这 个 问题 答案 的 
一 个 关键 要 素 取 决 于 推荐 列表 的 大 小 。 改 变 排 名 列表 中 的 推荐 物品 的 数量 对 已 推荐 而 且 确 
实 被 消费 的 物品 部 分 和 未 被 推荐 但 是 已 经 消费 的 物品 部 分 的 折 中 产生 直接 的 影响 。 能 够 通 
过 使 用 两 种 不 同 的 方法 来 评测 这 种 折 中 ,一 种 是 准确 率 ， 另 一 种 是 受 试 者 操作 特征 
CROC) 曲线 。 这 样 的 折 中 情况 广泛 适用 于 很 少 部 分 的 分 类 探测 、 异 常 值 分 析 评 估 或 者 信 
息 检 索 。 实 际 上 ， 这 样 的 折 中 情况 能 在 任何 应 用 中 使 用 ， 其 中 一 个 二 元 真实 值 被 用 来 和 算 
法 获得 的 排名 列表 做 比较 。 

基本 的 假定 是 使 用 一 个 数字 评分 来 对 所 有 物品 进行 排名 是 可 行 的 ， 这 也 是 手中 算法 
的 输出 结果 。 只 有 排名 项 端的 那 部 分 物品 被 推荐 。 通 过 改变 推荐 列表 的 大 小 ， 用 户 随 后 
能 检查 推荐 列表 中 相关 (真实 值 为 正 ) 的 物品 和 列表 中 缺失 的 但 是 相关 的 物品 。 如 果 推 
荐 列表 太 小 ,那么 算法 将 错过 相关 物品 〈 假 阴性 )。 另 一 方面 ， 如 果 推 荐 列表 数量 太 大 ， 
这 将 会 导致 很 多 用 户 压 根 不 会 使 用 的 虚假 推荐 〈 假 阳性 )。 这 就 产生 了 假 阳 性 和 假 阴 性 的 
折 中 。 问 题 的 关键 在 于 在 真实 的 情况 下 ， 我 们 根本 无 法 确切 地 知道 推荐 列表 最 合适 的 大 小 
是 多 少 。 但是， 能 通过 一 系列 的 方法 来 量化 全 部 的 折 中 ， 而 且 在 完整 的 折 中 曲线 上 来 比 
较 两 种 算法 。 关 于 这 种 曲线 的 一 个 例子 就 是 准确 率 - 召 回 率 曲线 和 受 试 者 操作 特征 
曲线 。 

我 们 假定 一 个 用 户 选择 推荐 给 他 的 列表 中 的 前 t 个 物品 。 对 于 任意 给 定 的 推荐 列表 的 
大 小 值 :， 推 荐 列表 集合 表示 为 S(t)。 注 意 |5(2) | =t. Kie, WR tE, SH 的 大 小 也 
会 变化 。 让 9 代表 用 户 消费 的 相关 物品 ( 真 阳 性 ) 的 真实 集合 。 那 么 ， 对 于 一 个 任意 给 定 
的 大 小 为 1 的 推荐 列表 ， 准确 率 被 定义 为 系统 推荐 物品 中 真实 相关 的 那 部 分 所 占 的 比例 


(比如 被 用 户 消 费 的 )。 
Precision(t) = 100 Sd 


Precision) 的 值 并 不 一 定 是 单调 的 ， 因 为 随 着 1 的 变化 ， 分 子 和 分 母 同 时 也 在 变化 。 
相应 地 ， 召 回 率 指 的 是 大 小 为 t 的 推荐 列表 中 正 值 物品 在 所 有 真实 真 值 中 的 比例 。 


Recall(z) = 100 + Sane 


在 准确 率 和 召回 率 之 间 存 在 一 个 自然 的 平衡 因子 ， 这 个 平衡 因子 不 一 定 是 单调 的 。 换 
名 话说， 召回 率 的 增长 并 不 总 是 造成 准确 率 的 减少 。 创 建 一 个 能 同时 解释 准确 率 和 召回 率 
的 单一 指标 的 一 种 方法 是 所 BEE. Fy 被 称 为 是 召回 率 和 精度 之 间 的 调和 均值 。 


ES 2 « Precision(t) » Recall(t) 
; Precision(t) + Recall (t) 





(7-21) 
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Fi(t) 度量 确实 提供 了 一 种 比 准确 率 或 者 召回 率 都 要 好 的 度量 方法 ,但 是 它 的 值 也 依 
赖 于 推荐 列表 的 大 小 +， 因 此 它 仍然 不 能 完全 代表 准确 率 和 召回 率 之 间 的 平衡 因子 。 通 过 
变换 t 值 和 绘制 准确 率 对 召回 率 ， 视觉 上 来 检查 全 部 的 准确 率 和 召回 率 之 间 的 折 中 是 可 行 
的 。 正 如 之 后 会 提 到 的 一 个 例子 ， 准 确 率 的 非 单调 性 造成 了 很 难 赁 直觉 来 解释 。 

第 二 种 概括 折 中 的 方法 是 一 个 更 加 直观 的 方法 ， 这 种 方法 使 用 ROC 曲线 。 真 实 正 数 
比例 ， 也 就 是 召回 率 ， 被 定义 为 大 小 为 t 的 推荐 列表 中 包含 的 真实 正 数 所 占 比例 。 


TPR(t) = Recall(z) = 100 + SA g| 


假 阳 性 FPR(t) 是 推荐 列表 中 给 出 但 并 不 是 实 正 数 的 正 值 〈 比 如 用 户 没 有 消费 的 不 相 
关 物 品 ) 。 因 此 ， 如 果 2 代 表 全 部 的 物品 集合 ， 真 实 负 数 集 就 是 一 9， 而 且 推 荐 列表 中 的 
虚假 正 值 是 SG) 一 UL) 。 所 以 ， 假 阳性 定义 如 下 : 


FPR(t) = 100 。 reer (7-22) 


可 以 把 假 阳 性 看 作 是 一 种 “不 好 的 ”的 召回 率 ， 其 中 那 部 分 本 身 应 该 是 阴性 的 结果 ( 比 
如 不 被 购买 的 物品 〉 被 推荐 列表 S(t) 错误 地 捕获 。ROC 曲线 是 通过 绘制 X 坐标 轴 为 
FPR(t) 和 了 坐标 轴 为 TPR(z) 在 不 同上 值 下 的 曲线 得 到 的 。 换 句 话 说，ROC 曲线 绘制 
了 “好 的 ”召回 率 对 抗 “ 坏 的 ”召回 率 。 注 意 ， 如 果 推 荐 列表 被 设置 定 为 全 部 物品 集 ， 
那么 此 时 任何 形式 的 召回 率 都 将 会 是 100% 。 因 此 ，ROC 曲线 的 两 个 端点 往往 是 点 (0，0) 
和 点 〈100，100)， 而 且 一 个 随机 猜测 的 模型 应 该 位 于 这 两 个 连接 点 的 主 对 角 线 上 。 对 
角 线 的 上 方 提供 一 种 方法 的 精确 性 。ROC 曲线 下 方 的 面积 提供 了 评价 特定 模型 的 性 能 
的 另 一 种 混合 的 量化 办 法 。 尽 管用 户 能 直接 使 用 如 图 7-4a 所 示 的 面积 ， 但 是 阶梯 式 
ROC 曲线 计算 经 常 被 修改 为 使 用 既 不 和 X 轴 平 行 也 不 和 了 工 轴 平行 的 线性 部 分 。 这 种 不 
规则 方法 上 ?5 后 来 就 被 用 来 略微 更 精确 地 计算 面积 的 方式 。 从 一 个 特别 的 角度 来 看 ， 这 
种 改变 对 最 终 的 计算 结果 影响 很 小 。 








0 10 20 30 40 50 60 70 80 90 100 00 10 20 30 40 50 60 70 80 90 100 
假 阳 率 召回 率 
a) ROC b) 准确 率 -召回 率 


图 7-4 ROC 曲线 和 准确 率 一 召回 率 曲线 


为 了 举例 说 明 从 这 些 不 同 的 图 形 描述 获得 的 深刻 见解 ， 考 虑 一 个 含有 100 个 物品 的 
情况 ， 其 中 5 个 物品 是 真实 相关 的 。 两 个 算法 A 和 B 被 应 用 在 将 数据 集 从 1 到 100 H 
名 ， 推 荐 列表 首先 选择 那些 排名 较 低 的 。 因 此 ， 真 阳性 和 假 阳 性 都 能 从 这 5 个 相关 物品 
的 排名 来 计算 。 在 表 7-1 中 , 已 经 为 不 同 的 算法 说 明了 5 个 真正 相关 物品 的 一 些 假设 排 


[248 


249 





186 RTE 





名 。 另 外 ， 还 给 出 了 一 个 随机 算法 对 真实 的 正 物品 的 排名 ， 该 算法 对 这 些 物 品 进行 随机 
排名 。 类 似 地 ， 表 中 还 阐述 了 一 个 称 为 “perfect oracle” 的 排名 算法 ， 其 在 推荐 列表 中 
正确 地 给 出 了 前 5 个 物品 的 排名 。 图 7-4a 展示 了 结果 的 ROC 曲线 。 图 7-4b 也 展示 了 相 
对 应 的 准确 率 -召回 率 曲线 。 注 意 ，ROC 曲线 总 是 单调 增长 的 ， 而 准确 率 - 召 回 率 曲 线 
却 不 是 单调 的 。 虽 然 准确 率 - 召 回 率 曲线 并 不 像 ROC 曲线 那样 直观 且 令 人 满意 ， 但 是 两 
种 情况 下 都 很 容易 地 从 不 同 算法 的 曲线 看 出 相关 趋势 。 总 体 来 说 ， 由 于 更 直观 ，ROC 
曲线 更 常用 。 


表 7-1 真实 正 实例 的 排名 









被 真正 使 用 的 物品 的 排名 (真实 的 正 实例 ) 
Ly 5,8, 155 20 








3, 7, 11, 13, 15 
17, 36, 45, 59, 66 
Ll, 2y 3+ 45 5 








随机 算法 


Perfect Oracle 











这 些 曲线 到 底 想 告诉 我 们 的 是 什么 ? 在 一 条 曲线 严重 超越 另 一 条 的 情况 下 ， 很 明显 的 
是 前 者 使 用 的 算法 是 更 加 优秀 的 。 例 如 ,立刻 就 能 看 出 Oracle 算法 比 其 他 所 有 的 算法 都 优 
秀 而 且 随 机 算法 比 别 的 所 有 算法 都 差 。 男 一 方面 ,算法 A 和 B 展现 了 各 自在 ROC 曲线 不 
同 部 分 的 主导 权 。 这 种 情况 下 ， 很 难说 哪 一 种 算法 一 定 比 另外 一 种 好 。 从 表 7-1 明显 看 到 
算法 A 对 其 中 三 个 相关 物品 排名 很 高 ， 但 是 剩 下 的 两 个 物品 排名 却 很 低 。 算 法 B 的 情况 
是 ， 尽管 5 个 相关 物品 都 要 更 靠近 排名 临界 点 ， 但 是 较 高 排名 的 物品 的 排名 表现 不 如 算法 
A， 算 法 A 支配 ROC 曲线 的 前 面 的 部 分 ， 而 算法 B 支配 后 续 的 部 分 。 使 用 ROC 曲线 下 方 
的 面积 作为 算法 总 体 性 能 的 度量 指标 是 可 行 的 。 但 是 ，ROC 曲线 中 不 同 部 分 有 着 不 同 的 
重要 性 ， 因 为 推荐 列表 的 大 小 在 实际 中 有 很 多 限制 。 

之 前 的 描述 解释 了 关于 用 户 的 ROC 曲线 ， 每 个 用 户 的 ROC 曲线 都 是 特定 的 。 对 用 户 
一 物品 对 进行 排序 ， 并 使 用 和 之 前 类 似 的 技术 可 以 生成 全 局 ROC 曲线 。 为 了 对 用 户 一 物品 
对 进行 排序 ， 假 设 该 算法 具有 通过 使 用 预测 亲 和 度 值 对 它们 进行 排序 的 机 制 。 例 如 ， 可 以 
使 用 用 户 - 物 品 对 的 预测 评分 对 它们 进行 排名 。 


7.5.5 哪 种 排名 方式 最 好 


尽管 ROC 曲线 经 常 被 用 来 评估 推荐 系统 ,但 是 它 不 能 总 反映 终端 用 户 的 体验 。 在 很 
多 设置 中 ,终端 用 户 只 看 见 小 部 分 排名 靠 前 的 物品 。 诸 如 ROC 和 肯 德 尔 系数 这 样 的 指标 ， 
对 排名 靠 前 和 靠 后 的 物品 同等 对 待 ， 所 以 不 能 捕获 那些 排名 靠 前 物品 的 重要 性 。 例 如 ， 推 
荐 列表 中 排名 第 一 和 第 二 的 两 个 物品 的 相关 排名 重要 性 远 不 如 列表 中 排名 100 和 101 这 两 
个 物品 的 相关 排名 。 在 这 种 背景 下 ， 在 需要 区 分 高 排名 和 低 排名 物品 的 情况 下 ， 类 似 
NDCG 这 种 基于 效用 的 指标 就 比 相关 排名 系数 或 ROC 指标 要 表现 得 好 一 些 。 


7.6 评估 指标 的 局 限 性 | 

基于 精确 性 的 评价 指标 有 很 多 缺陷 ， 这 些 缺 陷 会 使 得 推荐 系统 出 现 选 择 偏差 。 尤 其 
是 ， 评 分 矩阵 中 的 缺失 值 不 是 随机 的 ， 因 为 用 户 倾 向 于 给 那些 更 流行 的 物品 评分 。 正 如 
图 7-3 所 示 的 那样 ， 一 小 部 分 物品 被 大 量 用 户 评分 ， 然 而 大 部 分 的 物品 则 落 在 长 尾 中 。 
流行 物品 的 评分 分 布 往往 和 长 尾 物 品 的 评分 分 布 不 同 。 当 一 个 物品 很 流行 的 时 候 ， 很 大 
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可 能 是 因为 其 中 值得 关注 的 内 容 。 这 个 因素 同样 也 会 影响 用户 的 评分 。 因 此 ， 大 部 分 
推荐 算法 在 流行 物品 和 长 尾 物品 中 的 预测 精确 性 是 不 同 的 55s9 。 更 一 般 的 ， 一 个 特定 用 
户 选 择 不 给 某 个 特定 物品 打分 的 事实 会 对 她 的 评分 预测 产生 重要 影响 ， 尤 其 是 当 该 用 户 
被 强迫 给 所 有 物品 打分 时 。 这 个 问题 在 文献 [184] 中 的 一 个 稍 有 不 同 的 场景 下 是 这 样 
描述 的 : 

“直观 上 ， 一 个 简单 的 过 程 能 解释 这 样 的 结果 : 用 户 选择 给 他 们 听 的 歌曲 评 

分 ， 然 后 听 那 些 他 们 想 听 的 歌 ， 同 时 避免 他 们 不 喜欢 的 类 别 。 因 此 ， 大 部 分 即将 

获得 差 评 的 歌曲 并 不 是 用 户 自 愿 地 去 评分 。 因 为 人 们 很 少 去 听 那 些 随 机 选择 的 歌 

曲 ， 或 者 很 少 去 看 随机 电影 ， 我 们 应 该 期 待 去 观察 随机 物品 的 评分 分 布 和 用 户 选 

择 项 的 相关 分 布 的 差别 。” 

这 些 因素 在 评估 过 程 中 引起 偏差 问题 。 毕 竟 ， 为 了 在 一 个 给 定 的 数据 集 上 实施 评估 ， 
我 们 确实 不 能 去 使 用 那些 缺失 值 ; 而 且 ， 我 们 必须 用 hold-out 或 者 交叉 验证 机 制 来 模拟 缺 
失物 品 的 具体 评分 值 。 因 此 ， 模 拟 缺 失 值得 到 的 物品 可 能 不 会 和 用 户 理论 上 从 将 来 真实 消 
费 的 物品 上 获得 的 值 表 现 出 相似 的 精确 性 。 因 为 上 述 原因 ， 那 些 将 来 确实 被 用 户 消费 的 项 
也 不 会 是 用 户 从 缺失 值 中 随机 选择 的 。 评 分 分 布 的 这 种 特征 也 适用 于 MNAR, 或 者 选择 
偏差 (selection bias)[402,565] 。 这 种 特征 能 够 导致 一 种 不 正确 的 算法 相关 性 评估 。 例 如 ， 
一 种 基于 流行 度 的 模型 中 推荐 的 有 较 高 平均 评分 的 物品 可 能 会 在 为 商家 带 来 更 多 广告 收入 
上 面 表 现 较 好 ， 而 不 是 建议 随机 缺失 值 偏差 的 评分 值 。 由 于 长 尾 中 的 物品 对 于 推荐 系统 更 
加 重要 ， 这 个 问题 会 更 加 严重 ， 因 为 不 成 比例 的 利润 多 来 自 于 这 种 物品 。 

有 几 种 解决 问题 的 方法 。 最 简单 的 解决 方案 就 是 使 用 一 个 基于 未 来 评分 习惯 的 模型 来 
选择 测试 评分 ， 而 不 是 随机 选择 那些 缺失 值 。 另 一 种 解决 方案 是 不 要 随机 地 把 数据 集 拆 分 
为 训练 集 和 测试 集 ， 而 是 把 更 多 的 最 新 评分 作为 测试 集 的 一 部 分 ; 实际 上 ，Netflix KK 
竞赛 使 用 了 很 多 最 新 评分 作为 评估 和 集合， 尽管 很 多 最 新 的 评分 同样 被 作为 探测 集合 的 一 部 
分 。 最 近 几 年 已 经 被 使 用 的 一 种 方法 就 是 通过 在 缺失 评分 的 分 布 上 对 误差 建 模 来 校正 偏 
差 [555'566] 。 尽 管 这 种 方法 有 一 些 价 值 ， 但 是 它 确实 有 一 个 缺点 就 是 评估 过 程 本 身 假 定 了 一 
个 评分 如 何 表现 模型 。 这 种 方法 可 能 会 不 经 意 地 偏爱 那些 使 用 相似 模型 在 评估 过 程 中 预测 
评分 的 算法 。 值 得 关注 的 是 ， 很 多 最 新 的 算法 5091 将 隐 式 反馈 列 含 在 预测 过 程 中 。 这 就 
增加 了 未 来 预测 算法 可 能 为 模型 量 身 定制 的 可 能 性 ， 这 种 模型 被 用 来 适应 评估 过 程 中 的 
用 户 选 择 误差 。 尽管 文献 [565] 中 提 到 的 把 缺失 评分 和 它们 的 相关 度 联系 起 来 的 假设 
是 相当 合理 的 ,但 是 给 推荐 机 制 添 加 很 多 这 种 假定 (复杂 性 〉 也 会 增加 评价 基准 “ 游 
戏 ” 的 可 能 性 。 最 后 ， 考 虑 到 在 协同 过 滤 评 估 中 存在 这 些 局 限 性 是 固有 的 ; 任何 推荐 系 
统 的 品质 是 被 可 用 真实 值 的 品质 根本 限制 的 。 多 数 情况 下 ， 已 经 通过 Netflix 数据 集 [309] 
上 的 实验 表明 ， 在 观察 的 评分 上 使 用 简单 的 RMSE 指标 经 常会 很 好 地 和 这 些 物品 的 精确 
度 紧密 相连 。 

评估 误差 的 另 一 个 来 源 就 是 用 户 的 兴趣 会 随 着 时 间 变 化 这 个 事实 。 因 此 ，hold-onut 集 
上 的 表现 可 能 不 代表 将 来 的 表现 。 尽 管 这 不 是 一 个 完美 的 方案 ,但 是 在 训练 集 和 测试 集 上 
使 用 时 间 分 段 方法 看 起 来 似乎 是 一 个 合理 的 选择 。 尽 管 在 训练 集 和 测试 集 上 的 时 间 分 段 的 
结果 会 有 一 些 不 同 的 分 布 ， 但 是 它 也 能 更 加 贴切 地 反映 真实 世界 的 设 定 。 从 这 个 意义 上 来 





器 ”一 个 相关 的 影响 是 ， 已 知 评分 往往 是 由 常常 打分 的 用 户 来 提供 的 。 频 繁 打分 的 用 户 的 打分 模式 往往 和 不 频繁 
打分 的 用 户 的 打分 模式 不 同 。 
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bi. Netflix 大 奖 赛 也 提供 了 一 个 出 色 的 切实 可 行 的 评估 设计 模型 。 在 评估 过 程 中 ， 一 些 
其 他 的 当前 方法 的 变 体 的 讨论 请 参考 文献 【335] 。 
7.6.1 避免 评估 游戏 

缺失 值 并 不 是 随机 的 这 个 事实 ， 有 了 时候 会 导致 评估 在 特定 的 用 户 一 物品 测试 对 上 无 意 
识 的 (或 者 有 意识 的 ) PR. Ain, Æ Netflix 大 奖 赛 中 ， 尽 管 评分 值 没有 详细 说 明 ， 但 
在 评估 集合 中 的 用 户 - 物 品 对 的 坐标 系 是 规定 的 。 通 过 合并 评估 集合 中 的 用 户 - 物 品 对 的 
坐标 系 作为 隐 式 反馈 (如 3. 6. 4. 6 节 中 的 矩阵 F)， 我们 能 够 提高 推荐 的 质量 。 有 的 人 可 
能 会 争论 说 ， 相 对 于 那些 不 包含 任何 关于 已 评分 物品 的 身份 信息 的 方法 来 说 ,这 样 的 算法 
有 着 不 公平 的 优势 。 这 是 因为 在 现实 中 用 户 可 能 永远 也 不 会 了 解 已 评分 物品 的 未 来 坐标 ， 
但 在 Netflix Prize 数据 集 的 评估 集合 中 能 够 轻易 获取 。 因 此 ， 合 并 这 些 隐 式 反馈 的 额外 优 
势 也 会 在 真实 设 定 中 消失 。 有 一 种 解决 方案 就 是 不 要 规定 这 些 测试 条 目的 坐标 从 而 在 所 有 
条 目 上 进行 评估 。 但 是 ， 如 果 评 分 矩阵 的 维度 过 大 《比如 107 X 10°), 在 所 有 物品 上 实施 
预测 可 能 会 变 得 不 切实 际 。 而 且 ， 在 Netflix Prize 这 种 在 线 竞 赛 中 ， 存 储 和 上 传 这 样 大 量 
的 预测 数据 也 会 很 难 。 这 种 情况 下 ， 一 种 可 选择 的 方法 将 会 是 包含 〈 假 的 ) 数据 集中 未 被 
评分 的 物品 。 这 些 物 品 不 能 被 用 来 进行 评估 ， 但 是 它们 对 阻止 使 用 隐 式 反馈 测试 数据 中 的 
坐标 有 一 定 的 作用 。 


7.7 小 结 


为 了 对 不 同 算法 的 质量 有 一 个 清晰 的 了 解 ， 推 荐 系统 的 评估 是 至 关 重要 的 。 测 试 一 个 
推荐 系统 的 性 能 最 直接 的 方法 就 是 计算 推荐 物品 最 终 转化 为 实际 使 用 的 转化 率 。 这 可 以 通 
过 用 户 调查 或 者 在 线 调查 来 实现 。 但 是 这 样 的 调查 对 于 研究 者 和 从 业者 而 言 却 是 很 难 的 ， 
因为 他 们 很 难 有 权限 获得 大 规模 用 户 相关 的 基础 结构 。 离 线 方法 的 优势 在 于 能 够 使 用 历史 
数据 集 来 研究 。 这 种 情况 下 ， 用 精确 性 作为 唯一 指标 是 很 危险 的 ， 因 为 从 长 远 来 看 ， 最 大 
化 的 精确 性 并 不 总 是 产生 最 大 化 的 转化 率 。 所 以 一 些 如 覆盖 率 、 新 颖 度 、 人 惊喜 度 、 稳 定性 
和 可 扩展 性 的 指标 也 能 用 来 评估 推荐 系统 的 性 能 。 

为 了 确保 评估 过 程 没 有 偏差 ， 设 计 正 确 的 推荐 评估 系统 也 是 必要 的 。 例 如 ， 在 一 个 协 
同 过 滤 的 应 用 程序 中 ， 确 保 所 有 的 评分 都 是 通过 一 个 样本 外 的 方法 进行 评估 。 大 量 的 方 
法 ， 例 如 hold-out 和 交叉 验证 ， 被 用 于 确保 样本 外 的 评估 。 误 差 计 算 使 用 一 些 像 MAE, 
MSE 和 RMSE 的 指标 。 在 一 些 指标 中 ， 因 为 物品 不 同 的 重要 性 而 进行 不 同 的 加 权 。 为 了 
评估 不 同 排名 方法 和 排名 相关 性 的 性 能 ， 使 用 基于 效用 的 方法 或 者 基于 使 用 的 方法 。 对 于 
基于 使 用 的 方法 ， 准 确 率 和 召回 率 被 用 来 刻画 固有 的 平衡 因子 随 着 推荐 列表 的 变化 。 同 时 
也 会 用 F 度量 ， 即 准确 率 和 召回 率 的 调和 平均 值 。 


7.8 相关 工作 


一 些 优秀 的 关于 推荐 系统 的 评估 请 参考 [246，275，538]。 评 估 可 以 用 历史 数据 集 或 
者 用 户 调 查 来 实施 。 使 用 用 户 调查 来 评估 的 最 早 的 工作 请 参考 文献 (339, 385, 433]. FA 
历史 数据 集 来 评估 推荐 算法 的 早期 研究 可 参考 文献 [98]。 推 荐 系统 评估 指标 在 冷 启动 问 
题 上 的 讨论 请 参考 文献 [533]。 在 Web 应 用 上 实施 的 评估 推荐 系统 的 控制 性 实验 的 有 关 
讨论 请 参考 文献 [305]。 在 线 评估 设计 的 大 体 讨 论 请 看 文献 [93]。 有 关 多 臂 赌博 机 评估 
的 讨论 请 参考 文献 [349]。 在 线 推荐 系统 和 用 户 决定 的 对 比 请 看 文献 [317], 


推荐 系统 评估 189 





文献 [246] 的 工作 呈现 了 几 种 有 关 评 估 精 确 性 指标 的 变 体 。 这 篇 文章 或 许 是 关于 推 
荐 系统 评估 的 最 重要 的 资料 之 一 。 使 用 RMSE 作为 评 佑 指标 的 一 个 陷阱 请 参考 文献 
L632]。 使 用 MAE 和 RMSE 作为 评估 指标 的 相关 优点 的 一 个 简短 技术 注释 请 参考 文献 
[141]。[418] 讨论 了 使 用 精确 性 指标 的 挑战 和 陷阱 。 可 选择 的 评估 推荐 系统 的 方法 请 见 
文献 [459]。 有 关 新 颖 度 的 重要 性 的 讨论 请 见 [308]。 评 测 推荐 系统 新 颖 度 的 在 线 方法 可 
参考 文献 [140，286]。 使 用 流行 度 来 评测 新 颖 度 的 讨论 可 参见 文献 [140, 539, 680]. 
文献 [670] 的 工作 展示 了 在 标签 的 帮助 下 ， 在 推荐 系统 中 能 获得 的 惊喜 度 。 有 关 惊 喜 度 
的 评估 指标 请 参考 文献 [214，450]。 文 献 [214] 的 工作 也 研究 了 覆盖 率 指 标 。 多 样 性 指 
标的 讨论 请 参考 文献 [560]。 推 荐 系统 在 销售 多 样 性 上 的 影响 的 讨论 可 参考 文献 [203]。 
推荐 系统 健壮 性 和 稳定 性 指标 讨论 可 参考 文献 [158，329，393，444]。 分 类 系统 评估 的 
研究 请 参考 文献 [18，22]。 这 些 书 中 的 讨论 提供 了 对 使 用 的 诸如 hold-out 和 交叉 验证 的 
标准 技术 的 认识 。 

排名 相关 性 方法 的 讨论 见 文献 [298，299]。 归 一 化 的 距离 偏好 方法 请 看 文献 [505]. 
基于 效用 的 排名 评估 的 R-score 指标 请 参考 文献 [98]. KF NDCG 的 讨论 请 参考 文献 [59]. 
lift index 的 讨论 见 [361]，ARHR 的 讨论 见 文献 [L1811]。 分 类 上 下 文中 的 关于 ROC 曲线 
的 讨论 可 参考 文献 [195]， 尽 管 同样 的 观点 也 适用 于 推荐 系统 的 情况 。 使 用 特定 用 户 和 全 
局 的 ROC 曲线 的 讨论 可 见 文献 [533]. 

推荐 系统 的 一 个 局 限 性 在 于 评分 值 与 其 相对 频率 有 关 ， 而 且 缺 失 值 总 是 出 现在 长 尾 
中 。 因 此 ， 使 用 交叉 验证 和 hold-out 机 制 会 导致 对 低频 率 物 品 的 选择 误差 。 一 些 关 于 最 近 
的 校正 缺失 值 误 差 的 方法 的 讨论 可 参考 文献 [402，564-566]。 就 决定 哪些 评分 是 缺失 
的 而 言 ， 文 献 [565] 中 的 方法 提出 了 对 于 相关 物品 和 不 相关 物品 使 用 不 同 的 假设 。 基 
于 这 些 假设 ，[565] 中 也 设计 了 一 个 训练 算法 。 文 献 L335] 则 讨论 了 注重 实际 的 评估 
的 时 间 体 系 架 构 。 推 荐 系统 同样 需要 在 许多 不 同 的 设置 〈 比 如 在 特定 文本 的 出 现 率 ) 上 
被 评估 。 这 些 文本 可 能 包含 时 间 、 地 点 或 者 社交 信息 。 关 于 推荐 系统 在 时 间 信息 内 容 上 
的 评估 框架 的 讨论 可 参考 文献 [130]。 最 新 的 仅仅 关注 于 推荐 系统 评估 的 研讨 评价 请 参考 
文献 L4] 。 


7.9 习题 


1. 假定 一 个 商家 知道 利润 g; 与 第 i 个 物品 的 销量 有 关 。 请 设计 一 个 协同 过 滤 系 统 的 误差 指标 来 衡量 每 个 含 
有 利润 的 物品 的 重要 性 。 

. 假定 你 为 协同 过 滤 设 计 了 一 个 算法 而 且 发 现 它 在 评分 值 为 5 的 时 候 表现 很 差 ， 但 是 在 别 的 评分 值 上 却 
表现 很 好 。 你 基于 这 种 见解 来 修改 你 的 算法 然后 再 次 测试 这 个 算法 。 讨 论 第 二 次 评估 的 陷阱 。 将 你 的 
答案 和 为 什么 Netflix 选择 从 Netflix Prize 数据 集 把 评测 集 和 测试 集 分 离开 来 进行 关联 。 

3. 实施 一 个 能 够 构建 ROC 和 准确 率 一 召回 率 曲线 的 算法 。 

4. 假定 你 有 一 个 隐 式 反馈 数据 集 ， 其 中 评分 值 是 一 元 的 。 是 ROC 曲线 能 提供 更 有 意义 的 结果 还 是 RMSE 
指标 表现 更 好 ? 

. 考虑 一 个 用 户 John， 你 已 经 隐藏 了 John 对 于 《Aliens》 的 评分 (5)、《Terminator》 评 分 (5)、《Nero》 
评分 (1) 和 《Gladiator》 评 分 6)。 圆 括号 里 的 值 代表 他 的 隐藏 评分 ， 而 且 值 越 大越 好 。 现 在 考虑 一 
种 情景 ， 其 中 推荐 系统 将 这 些 电影 按照 《Terminator》《Aliens》《Gladiator》《Nero》 的 顺序 排名 。 

(a) 计算 Spearman 排名 相关 系数 来 作为 推荐 系统 排名 性 能 的 指标 。 
(b) 计算 肯 德 尔 排名 相关 系数 作为 推荐 系统 排名 性 能 的 指标 。 

. 在 习题 5 给 出 的 问题 中 ， 有 关 John 对 电影 给 出 的 效用 用 max{r, 一 3,0} 来 得 到 ， 其 中 ;是 John 给 电 

影 的 评分 。 
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(a) 基于 这 种 效用 的 假设 ， 计 算 特 定 用 户 John 的 R-score。 假 定 半衰期 参数 a51, 
Cb) 对 于 同样 的 效用 假设 ， 如 果 系 统 中 一 共有 10 个 用 户 ， 计 算 特 定 用 户 John 的 DCG BR. 


. 针对 习题 5 给 出 的 问题 ,假设 属于 John 的 隐藏 评分 值 唯 一 ， 然 后 推荐 系统 给 出 的 预测 值 分 别 是 


《Aliens》(4. 3)、《Terminator》(5. 4) 、《Nero》 (1.3) 和 《Gladiator》 (5) 。 圆 括号 中 的 值 代表 预测 
评分 。 

(a) 计算 预测 评分 的 MSE。 

(b) 计算 预测 评分 的 MAE, 

(c) 计算 预测 评分 的 RMSE, 

(d 计算 归 一 化 的 MAE 和 RMSE, 假设 所 有 的 评分 值 都 分 布 在 (1-6) 范围 内 。 


| 第 8 章 


Recommender Systems; The Textbook 


上 下 文敏 感 的 推荐 系统 





对 我 而 言 ， 上 下 文 就 是 关键 一 一 从 中 可 以 理解 所 有 的 事情 。 





Kenneth Noland 


8.1 引言 


上 下 文敏 感 的 推荐 系统 通过 给 推荐 加 上 人 额外 的 信息 来 定制 其 推荐 这 些 额 外 的 信息 定 
义 了 推荐 中 的 一 些 特殊 情况 。 这 些 额 外 的 信息 称 为 上 下 文 (context)。 下 面 是 一 些 上 下 文 
的 例子 。 

1) 时 间 : 推荐 会 受到 来 自 时 间 的 很 多 方面 的 影响 ， 比 如 工作 日 、 周 末 、 假 日 等 。 一 
个 和 早晨 上 下 文 相关 的 推荐 很 可 能 不 适用 于 晚上 ， 反 之 亦 然 。 有 关 夏 天 和 冬天 的 服装 推荐 
也 可 能 是 不 同 的 。 第 9 章 讨论 了 一 些 对 时 间 敏 感 的 推荐 方法 。 实 际 上 ， 本 章 中 讨论 过 的 一 
些 方法 ， 比 如 预 过 滤 和 后 过 滤 ， 在 第 9 章 的 时 间 上 下 文中 会 被 重新 考察 。 

2) 位 置 : 近年 来 ， 随 着 GPS 手机 的 逐渐 流行 ， 位置 敏 感 的 推荐 受到 越 来 越 多 的 重 
视 。 例 如 ， 一 个 旅行 者 可 能 希望 基于 他 的 地 点 来 确定 餐馆 。 通 过 使 用 位 置 作为 上 下 文 ， 上 
下 文敏 感 的 推荐 系统 能 提供 更 相关 的 推荐 。 下 一 章 将 会 呈现 几 种 位 置 感知 的 系统 的 例子 。 

3) 社交 信息 : 从 推荐 系统 的 角度 来 看 ， 社 交 上 下 文 常 常 很 重要 。 例 如 ， 某 用 户 的 朋 
友 、 标 签 和 社会 圈子 的 选择 都 能 够 影响 推荐 的 过 程 。 同 样 ， 一 个 人 选择 观看 的 电影 可 能 不 
同 ， 这 取决 于 她 是 和 父母 一 起 看 还 是 和 男 朋友 一 起 看 5 。 第 10 章 和 第 11 章 将 会 讨论 社交 
推荐 系统 。 一 部 分 系统 也 可 以 被 看 作 是 上 下 文 推荐 系统 。 

用 户 的 上 下 文 能 够 通过 多 种 方式 来 查 明 。 在 某 些 情况 下 ， 几 乎 不 用 费力 就 可 以 了 解 到 
这 些 信 息 ， 因 为 这 些 数据 已 经 可 获取 。 例 如 ， 手 机 GPS 的 接收 器 将 会 表明 该 用 户 的 位 置 ， 
用 户 交 易 的 时 间 惟 表明 了 时 间 。 这 属于 隐 式 搜集 方法 66] 。 在 其 他 情况 下 ， 上 下 文 并 不 是 
这 么 容易 获得 。 例 如 ， 可 以 通过 调查 或 其 他 方式 来 明确 地 搜集 信息 。 最 后 ， 在 某 些 情况 
下 ， 可 以 使 用 数据 挖掘 和 推断 工具 来 收集 上 下 文 的 信息 。 

在 传统 的 推荐 系统 中 ， 用 户 集合 用 口 来 表示 ， 物 品 集合 用 I RRM, 集合 UXIT 的 每 
个 值 被 映射 到 一 个 评分 上 。 这 个 映射 产生 了 一 个 规模 为 |U| xX || (未 完全 指定 ) 的 评分 和 矩 
阵 。 在 一 个 上 下 文 感知 的 系统 中 ， 用 一 个 额外 的 集合 C 来 表示 所 有 可 能 的 上 下 文 的 集合 。 
例如 ， 集 合 C 可 能 是 《上午 ， 下 午 ， 晚 上 }， 用 这 样 的 上 下 文 来 对 应 每 天 的 时 间 。 这 种 情 
况 下 ， 将 UXI 映 射 到 评分 变 得 不 可 能 ， 因 为 同样 的 用 户 对 于 一 个 物品 还 可 能 会 有 不 同 的 
表现 ， 这 取决 于 时 间 是 上 午 、 下 午 还 是 晚上 。 所 以 为 了 呈现 一 个 更 加 精练 和 准确 的 推荐 ， 
映射 必须 包含 上 下 文 。 因 此 ， 在 上 下 文敏 感 的 推荐 系统 中 ,将 UXIXC 映射 到 评分 。 正 
式 地 ，hg 函 数 将 用 户 、 物 品 和 上 下 文 映射 到 评分 ， 其 描述 如 下 : 

hr:U X I X C— rating | 
AR 函数 中 下 标尺 表示 的 是 所 使 用 的 数据 集 。 这 种 情况 下 ， 评 分 数据 R 是 一 个 三 维 的 评分 
数据 立方 体 ， 维 度 分 别 对 应 着 用 户 、 物 品 和 上 下 文 。 在 一 个 推荐 应 用 中 可 能 会 使 用 多 种 形 
式 的 上 下 文 。 例 如 ， 除 了 时 间 以 外 ， 还 可 以 使 用 位 置 、 天 气 或 社交 上 下 文 。 因 此 ， 就 可 能 
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存在 多 种 上 下 文 的 维度 。 这 就 需要 用 一 个 多 维 的 立方 体 来 表达 评分 。 正 如 我 们 将 在 本 章 余 
下 部 分 看 到 的 那样 ， 多 维 表征 的 概念 能 够 被 连续 地 用 来 表示 一 系列 不 同 的 上 下 文 。 本 章 我 
们 将 处 理 这 种 多 维 上 下 文 的 模型 。 

本 章 安排 如 下 : 8. 2 节 讨 论 上 下 文 推荐 的 多 维 模型 。 关 于 上 下 文 的 预 过 滤 和 降 维 方法 
将 会 在 8. 3 节 描 述 。 后 过 滤 方 法 在 8. 4 节 中 讨论 。8. 5 节 探 讨 如 何 将 上 下 文 直接 能 和 推荐 
过 程 中 。8. 6 节 是 本 章 的 小 结 。 


8.2 多 维 方法 


传统 的 推荐 问题 可 以 看 作 是 学 习 从 用 户 一 物品 对 到 评分 值 之 间 的 映射 函数 。 对 应 的 函 
数 fR 可 以 如 下 表示 : 
fr:U X I— rating (8-1) 
这 个 函数 使 用 二 维 的 评分 矩阵 来 创建 映射 。 因此， 该 函数 是 把 一 个 用 户 一 物品 的 二 维 空间 
的 数据 点 映射 到 评分 上 。 当 然 ， 理 论 上 这 些 维度 不 仅仅 可 以 表示 用 户 或 者 物品 ， 还 可 以 表 
示 任 何 类 型 的 上 下 文 。 这 个 普遍 准则 促进 了 多 维 的 推荐 方法 [中 ， 在 这 种 方法 中 ， 评 分 问题 
被 看 作 是 从 w 维 的 值 到 评分 的 一 个 映射 。 
gR:D1 X Dz X + X Dy => rating 
在 这 种 情况 下 ， 类 似 于 传统 环境 中 将 二 维 的 用 户 一 物品 对 映射 到 评分 上 ， 该 评分 数据 R 将 
aT w 个 不 同 维度 的 值 映 射 到 评分 上 。 这 就 产生 了 一 个 w 维 的 立方 体 而 不 是 一 个 二 维 
矩阵 。 这 多 个 不 同 的 维度 分 别 用 D1…D 来 表示 。 注 意 ， 这 些 维度 中 始终 有 两 个 维度 是 用 
户 和 物品 ， 类 似 于 多 维 推荐 中 的 经 典 情形 ,但 是 其 他 D; 上 的 值 可 能 对 应 着 别 的 上 下 文 。 例 
如 ， 这 些 上 下 文 可 能 对 应 时 间 、 地 点 ， 等 等 。 因 此 ， 传 统 推荐 问题 可 以 被 看 作 是 多 维 方法 
的 一 种 特殊 情形 ， 这 种 情形 中 只 有 两 个 维度 ， 那 就 是 用 户 和 物品 。 查 看 这 种 泛 化 的 一 种 很 
好 方式 就 是 在 线 分 析 处 理 COLAP) 数据 立方 体 04] ， 传 统 上 这 个 立方 体 是 用 来 作为 数据 
仓库 的 。 图 8-1 展示 了 一 个 对 应 用 户 、 物 品 (电影 ) 和 时 间 的 三 维 OLAP 立方 体 的 例子 。 
这 个 立方 体 中 的 每 个 单元 格 包含 一 个 关于 特定 用 户 、 物 品 和 时 间 组 合 的 评分 。 尽 管 这 种 情 
况 下 的 上 下 文 是 一 个 有 序 的 变量 (时间 ), 但 是 在 分 析 过 程 中 它 往往 被 当 作 离散 值 。 而 且 ， 
某 些 时 间 的 表示 并 不 是 有 序 的 ， 比 如 工作 日 、 周 末 或 者 季节 。 类 似 地 ， 上 下 文 的 维度 也 能 
够 很 好 地 放置 ， 而 不 一 定 是 一 个 有 序 的 变量 。 把 上 下 文 的 维度 看 作 离 散 值 对 于 数据 立方 体 
来 说 是 至 关 重 要 的 。 
评分 函数 gk 被 定义 为 一 个 偏 函 数 ， 其 中 参数 的 数量 等 于 维度 w 的 数量 。 在 图 8- 1 的 
例子 中 ， 评 分 函数 gr (David，Terminator，9PM) 指 的 是 用 户 David Æ FF 9 点 钟 观看 电 
影 《Terminator》 时 的 评分 值 。 这 个 单元 格 在 图 8-1 中 加 了 阴影 。 上 映射 函数 g&R 是 偏 函 数 ， 
因为 它 仅仅 在 已 观测 到 的 评分 值 的 单元 格 上 定义 。 剩 下 的 值 需要 通过 数据 驱动 方式 来 学 
习 ， 从 而 产生 上 下 文 的 推荐 。 注 意 ， 上 下 文 可 以 是 用 户 的 某 个 属性 、 物 品 的 某 个 属性 、 用 
户 一 物品 的 属性 或 者 某 个 完全 独立 的 属性 。 例 如 ， 当 David FF 9 点 钟 观看 电影 《Termi- 
nator》 的 时 候 ，9 点 钟 这 个 上 下 文 就 可 以 同时 和 这 两 个 属性 相关 ， 因 为 这 个 用 户 在 特定 的 
时 间 点 观看 了 这 部 电影 ， 所 以 时 间 并 不 仅仅 和 用 户 相 关 ， 也 不 仅仅 和 物品 相关 。 然 而 ， 上 
下 文 只 能 和 两 个 中 的 一 个 相 联 系 也 是 可 能 的 。 例 如 ， 考 虑 在 一 个 电影 推荐 应 用 中 ， 是 基于 
评分 矩阵 和 用 户 的 特征 给 用 户 推荐 电影 。 在 这 种 情况 下 ， 上 下 文 显然 和 该 用 户 相 关 。 总 的 
来 说 ， 上 下 文 和 谁 相关 并 不 重要 ， 因 为 它 被 当 作 和 用 户 及 物品 完全 独立 的 实体 。 因 此 ， 如 
同 给 用 户 和 物品 分 配 单独 的 维度 一 样 ， 也 会 给 每 种 上 下 文 分 配 一 个 单独 的 维度 。 这 种 抽象 
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有 助 于 解决 上 下 文敏 感 推荐 中 的 大 部 分 情况 。 


gx (David, Terminator, 9 PM) 





图 8-1 多 维 评分 矩阵 


在 一 个 更 加 普遍 的 级 别 中 ， 这 种 想法 类 似 于 对 于 Di…Du 中 两 个 不 相交 的 子 集 查 询 最 
好 的 组 合 排 名 。 这 些 从 D1…D 中 选择 的 子 集 要 么 是 “什么 ”维度 ， 要 么 是 “为 谁 ”维度 。 
每 个 维度 属于 这 两 类 中 的 一 个 ,但 是 它 不 可 能 同时 属于 两 个 范畴 。 一 个 典型 的 查询 如 下 : 

给 定 “ 为 谁 ” 维 度 上 的 值 ， 确 定 “ 什 么 ”维度 上 前 上 个 最 大 的 可 能 性 。 

在 传统 的 推荐 系统 中 ， 物 品 维 度 往往 是 属于 前 者 的 类 别 ， 而 用 户 维度 总 是 属于 后 者 的 
类 别 。 但 是 ,在 多 维 的 推荐 系统 中 ， 这 种 限制 不 适用 。 正 式 地 ， 多 维 推荐 的 问题 可 以 如 下 
定义 [6] 。 

定义 8.2.1【( 多 维 推荐 ) 给 定 推荐 空间 Di XD X XD 和 评分 函数 gk :D1 X D2 X-X 
D>rating， 推 荐 问题 被 定义 为 : 选择 特定 的 “什么 ” 维度 Di …Di 和 特定 的 “为 谁 ” 维 
度 D; …D; (这 两 个 维度 子 集 不 相交 )， 对 于 一 个 查询 元 组 (dj; dj) E Dj, XXD» 
输出 评分 预测 值 gkR (di ,dz，,*… ,dw) 最 大 的 前 让 个 元 组 (di “di )ED: XX Dj, o 

换 句 话说， 为 了 回应 “为 谁 ” 的 查询 ， 系 统 会 推荐 一 个 “什么 ”维度 的 排名 列表 。 传 
统 的 二 维 推荐 模型 是 这 种 场景 的 一 种 特殊 情况 ， 这 种 情形 下 会 把 物品 推荐 给 用 户 。 因 此 ， 
物品 总 是 属于 “什么 ”范畴 ， 而 用 户 往往 属于 “为 谁 ” 这 个 范畴 。 在 一 个 多 维 的 推荐 系统 
中 ， 会 使 用 一 个 更 加 普遍 的 框架 ， 其 中 “什么 ”和 “为 谁 ” 的 物品 的 区 分 可 能 是 任意 的 。 
例如 ， 某 个 推荐 系统 可 能 会 把 最 好 的 物品 一 时 间 组 合 推 荐 给 每 个 用 户 ,， 或 者 把 最 好 的 用 
户 一 时 间 组 合 推 荐 给 每 个 物品 。 或 者 ， 系 统 也 可 能 会 把 最 好 的 时 间 推 荐 给 每 个 用 户 一 物品 
组 合 。 注 意 ， 在 最 后 一 个 例子 中 ， 用 户 和 物品 都 是 属于 “为 谁 ” 的 范畴 。 在 一 个 社交 应 用 
中 ， 对 于 一 个 特定 的 用 户 一 电影 组 合 ， 用 户 可 能 希望 推荐 最 好 的 观 影 伙伴 。 注 意 ,， “什么 ” 
和 “为 谁 ”维度 的 联合 可 能 是 全 部 ww 个 维度 的 一 个 合适 的 子 集 。 例 如 ， 考 虑 当 w=4 时 ， 
除了 用 户 和 物品 维度 以 外 ， 我 们 还 有 时 间 和 位 置 的 上 下 文 。 对 于 查询 来 说 ， 完 全 和 忽略 时 间 
而 仅仅 使 用 位 置 上 下 文 来 做 推荐 也 是 可 行 的 。 

正如 上 面 描 述 中 反映 的 那样 ， 多 维 推荐 模型 是 特别 丰富 的 ， 而 且 它 在 决定 推荐 的 规划 
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方面 留 有 更 加 广阔 的 余地 。 实 际 上 ， 为 了 在 多 维 推荐 系统 中 定义 不 同形 式 的 推荐 需求 ， 一 
种 被 称 为 推荐 查询 语言 (RAL) HAMAR CAKE. RAWAM IT Awe 
程 中 选择 不 同 的 “什么 ”和 “为 谁 ” 子 集 以 及 设计 系统 查询 响应 方法 都 特别 有 用 。 


8.2.1 层级 的 重要 性 


在 传统 的 OLAP 模型 中 ， 层 级 常常 被 定义 在 不 同 的 维度 下 。 例 如 ， 在 一 个 销售 应 用 
中 ， 数 据 立 方 体 单 元 格 对 应 着 其 销量 ， 其 位置 维度 可 能 会 有 多 个 层级 ， 比 如 城市 、 州 、 国 
家 ， 等 等 。 我 们 可 以 在 州 、 地 区 或 者 国家 的 层级 上 统计 销量 。 此 外 ,我 们 也 可 以 通过 对 某 
特定 区 域 和 某 特定 时 间 段 的 销售 进行 聚集 来 将 位 置 维度 和 时 间 维 度 进行 组 合 。 这 样 的 聚集 
也 适用 于 多 维 推荐 系统 。 层 级 在 上 下 文敏 感 的 推荐 系统 中 是 有 用 的 ， 因 为 层级 提供 了 多 种 
级 别 的 抽象 ， 在 层级 上 我 们 能 执行 聚集 分 析 。 

为 了 执行 聚集 分 析 ， 假 定 部 分 或 者 全 部 的 维度 都 有 与 之 匹配 的 层级 。 这 些 层级 是 推荐 
系统 输入 的 一 部 分 。 层 级 的 属性 是 高 度 领域 相关 的 ， 而 且 它 依赖 于 当前 的 应 用 。 一 些 例子 
如 下 : 

1) 位 置 维度 对 应 着 城市 、 州 、 区 域 和 国家 等 层级 。 

2) 如 果 人 口 统计 信息 与 用 户 关联 ， 那 么 我 们 也 可 以 为 用 户 分 配 一 个 统计 属性 上 的 层 
级 ， 如 年 龄 或 者 职业 。 例 如 ， 年 龄 维度 可 以 按 不 同 的 粒度 被 离散 成 多 个 层级 。 

3) 物品 维度 可 以 使 用 标准 的 工业 层级 ， 比 如 北美 工业 分 类 系统 (NAICS)。 或者, 也 
可 以 使 用 一 系列 类 型 或 子 类 型 来 表示 不 同 产品 领域 的 物品 (例如 电影 领域 )。 

4) 诸如 时 间 这 样 的 维度 可 以 表示 成 不 同 粒度 的 层级 ， 比 如 小 时 、 天 数 、 周 数 或 者 月 
数 等 。 

显然 ， 用 户 需 要 在 使 用 这 些 层 级 之 前 就 做 出 选择 ， 以 便于 在 一 个 给 定 的 应 用 上 执行 最 
相关 的 分 析 。 和 筛选 出 最 相关 的 上 下 文 的 维度 Di…D;, 对 于 即将 处 理 的 应 用 来 说 也 是 很 重要 
的 。 这 种 问题 和 传统 分 类 和 机 器 学 习 文 献 [18，22」 中 涉及 的 特征 选择 密切 相关 。 或 者 ， 
把 这 些 维度 交 给 领域 专家 来 选择 。 

关于 有 用户、 物品 (电影 ， 和 时 间 的 可 能 层级 的 示例 如 图 8-2 所 示 。 这 些 用 户 按 年 龄 分 
类 ， 电 影 按 题材 分 类 ， 时 间 按 当前 时 刻 分 类 。 现 在 考虑 把 这 些 层级 用 于 图 8-1 的 例子 中 。 
通过 这 些 层级 ， 用 户 能 够 做 出 更 加 概要 (聚集 ) 的 查询 ， 例如 gk (David，Terminator， 
Evening)， 而 不 是 gk (David，Terminator，7PM)。 前 者 提供 了 David 在 晚上 任意 时 刻 观 
看 《Terminator》 时 对 这 部 电影 的 评分 的 平均 预测 ， 而 后 者 提供 了 David 在 晚上 7 点 观看 
《Terminator》 时 对 这 部 电影 的 喜爱 程度 的 预测 。 最 极端 的 例子 有 gR(David，Action，Any 
Time)， 它 完全 忽视 时 间 上 下 文 并 且 只 关注 某 题 材 的 电影 。 这 个 查询 评估 了 David 在 任何 
时 候 看 的 动作 片 的 平均 评分 。 因 此 ， 之 所 以 认为 层级 是 有 用 的 ， 并 不 仅仅 是 从 上 下 文 的 角 
度 ， 而 是 基于 用 户 和 物品 维度 上 的 层级 分 析 这 个 角度 。 

在 用 户 和 物品 维度 把 层级 分 析 结 合 起 来 是 可 行 的 。 例 如 ， 我们 能 通过 查询 年 龄 在 
L20，30] 的 用 户 有 多 么 喜欢 观看 动作 片 来 进一步 聚集 ， 而 不 是 去 关注 某 个 像 David KH 
的 用 户 。 可 以 通过 使 用 函数 gg(UsersE Age[ 20, 30], Action, Any Time) 来 实现 。 注 
意 ， 图 8-2 是 按 年 龄 这 个 层级 将 用 户 分 组 。 这样 的 聚集 查询 可 以 被 看 作 是 多 维 推荐 系统 的 
一 种 聚集 。 例 如 ,我们 能 把 聚集 评分 gr (David, Action, Any Time) 看 作 如 下 的 聚集 
函数 : 

gr(David, Action, Any Time) = AGGR(xe Action, sey) gr (David. zy) (8-2) 
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在 传统 的 OLAP 应 用 中 ， 我 们 能 够 通过 对 相关 的 单元 格 求 和 来 获得 相关 聚集 。 这 指 的 是 传 
统 OLAP 系统 中 的 “上 卷 ” 操 作 。 然 而 ， 在 推荐 系统 中 ， 相 比 于 总 体 值 来 说 ， 讨 论 平均 值 
更 有 意义 。 我 们 在 意 的 要 么 是 David 对 于 动作 片 的 平均 评分 ,要么 是 他 对 于 动作 片 里 最 高 
的 前 个 项 评分 的 平均 值 。 这 里 主要 的 挑战 是 ， 在 原始 的 数据 立方 体 中 并 不 是 所 有 的 值 都 
已 被 指定 ， 因 为 数据 立方 体 函数 被 看 作 是 一 个 偏 函数 。 在 大 多 数 情况 下 ， 评 分 数据 是 在 最 
低层 级 上 以 一 种 非常 稀 朴 的 方式 被 指定 的 。 某 些 情况 下 ， 也 可 以 将 已 观测 评分 值 指定 在 一 
个 较 高 的 层级 上 。 例 如 ， 在 某 些 系统 中 ，David 可 能 直接 指定 他 对 于 动作 片 或 者 喜剧 片 的 
兴趣 ， 而 不 是 提供 各 部 电影 的 评分 。 多 维 推荐 系统 被 设计 用 来 解决 这 些 情景 。 因 此 ， 至 关 
重要 的 一 步 就 是 能 够 评估 在 所 有 层级 上 的 缺失 值 。 这 些 估计 值 将 会 和 原始 数据 值 一 起 ， 被 
用 来 响应 多 种 多 样 的 查询 。 因 此 ， 多 级 别 多 维度 的 评分 估计 问题 如 下 所 述 : 

定义 8.2.2 (多 级 别 多 维度 的 评分 估计 问题 ) 给 定 一 个 由 用 户 指定 评分 的 初始 集 ， 其 
评分 是 在 多 维 评分 立方 体 的 不 同 级 别 上 被 指定 的 ， 任 务 是 对 该 立方 体 OLAP 层级 中 所 有 级 


[261] 


[262 | 


196 BBE 


别 上 的 所 有 其 他 评分 做 出 估计 。 

尽管 对 所 有 层级 做 出 估计 不 太 可 行 ， 但 是 大 部 分 技术 还 是 可 以 在 最 低级 别 上 对 评分 做 
出 预测 。 这 种 执行 上 下 文 推荐 的 技术 可 以 分 成 以 下 三 类 : 

D 上 正文 预 过 滤 : 这 类 方法 中 ， 通 过 相关 的 上 下 文 将 评分 值 的 某 一 段 做 预 过 滤 。 然 
后 用 相关 的 评分 段 做 出 定向 推荐 。 

2) 上 下 文 后 过 滤 : 这 类 方法 中 ， 首 先 在 全 局 评分 集合 中 执行 推荐 。 然 后 进行 后 过 滤 ， 
即 利用 当前 的 上 下 文 对 推荐 的 排名 列表 进行 过 滤 或 调整 。 

D 上 下 文 建 模 : 这 种 情况 下 ， 上 下 文 信息 被 直接 肉 入 预测 函数 中 ， 而 没有 预 过 滤 或 
者 后 过 滤 的 步 又。 这 从 根本 上 区 别 于 前 述 情况 ， 前 面 的 情景 都 是 以 传统 的 二 维 推荐 系统 为 
背景 的 。 上 下 文 建 模 是 在 建 模 过 程 中 对 w 维 的 评分 矩阵 做 直接 处 理 的 最 普遍 方式 。 该 方法 
提供 了 聚集 度 最 好 的 结果 ,但 是 它 有 时 候 会 计算 密集 或 者 很 难 在 高 维度 上 执行 。 

在 接 下 来 的 章节 中 ， 我 们 将 讨论 用 来 产生 推荐 的 不 同类 型 的 技术 。 值 得 注意 的 是 ， 某 
些 技术 ， 比 如 后 过 滤 ， 使 用 了 不 同 维度 上 的 额外 辅助 信息 。 这 些 辅助 信息 指 的 是 属性 值 S 。 
例如 ， 某 个 用 户 可 能 有 与 其 相关 的 统计 信息 ， 比 如 名 字 、 地 址 、 年 龄 、 性 别 或 者 职业 。 某 
个 物品 ， 比 如 电影 ， 可 能 有 与 之 关联 的 电影 名 字 、 演 员 、 导 演 等 辅助 信息 。 这 些 属性 值 并 
不 是 仅仅 和 用 户 或 物品 维度 相 结 合 ， 还 可 以 和 上 下 文 维度 结合 。 例 如 ， 考 虑 这 样 一 种 情 
况 ， 某 个 用 户 想 要 和 某 个 特定 的 同伴 去 看 电影 。 这 个 同伴 的 维度 可 能 包含 名 字 、 同 伴 的 类 
型 〈 比 如 ， 朋 友 或 者 父母 ) 以 及 年 龄 。 正 如 我 们 将 在 本 章 后 续 内 容 看 到 的 那样 ， 这 些 类 型 
的 辅助 信息 对 于 某 些 类 型 的 上 下 文 推荐 应 用 是 很 重要 的 。 与 一 个 维度 相关 联 的 属性 集合 被 
称 为 它 的 画像 。 需 要 注意 ， 频 繁 使 用 物品 画像 和 用 户 画像 来 学 习 基于 内 容 的 推荐 模型 〈 比 
如 第 4 章 )。 这 些 属性 在 许多 上 下 文 推荐 算法 中 很 有 用 。 


8.3 上下文 预 过 滤 : 一 种 基于 降 维 的 方法 


上 下 文 预 过 滤 也 被 称 为 降 维 [6] 。 基 于 降 维 的 方法 是 把 w 维 问题 降 维 成 一 个 二 维 的 估 
计 问 题 。 二 维 的 估计 问题 和 传统 的 协同 过 滤 系 统 中 的 问题 是 等 价 的 。 
为 了 理解 这 一 点 ， 我 们 将 使 用 一 个 三 维 推荐 系统 作为 示例 。 考 虑 某 种 情况 下 有 三 个 属 
E: 用户 (U)、 电 影 CD) 和 时 间 〈T) 。 在 这 种 情况 下 ， 评 分 函数 gR 被 定义 为 如 下 : 
gr:U X I X T —> rating 
注意 ， 在 这 种 情况 下 ， 数 据 集 RR 是 一 个 三 维 的 立方 体 。 考 虑 一 个 传统 的 二 维 推 荐 系统 中 映 
Oy PRAM fr’ UF 
fr :U X I > rating 
在 这 种 情况 下 ， 数 据 立方 体 R 是 一 个 二 维 的 立方 体 ， 其 中 只 呈现 出 U 和 TI 两 个 维度 。 显 
然 ， 使 用 二 维 的 推荐 系统 和 忽略 上 下 文 维度 是 等 效 的 。 通 过 对 三 维 评分 矩阵 使 用 简约 导 
数 ， 可 以 将 三 维 预测 函数 表示 成 二 维 预 测 函 数 。 在 任意 查询 时 间 上 ， 通 过 对 R 使 用 一 对 标 
准 数据 库 操作 ， 来 得 到 一 个 二 维 评分 矩阵 R O). 
R'(t) = Projectyu,; (Selectr—,(R)) = ru.r(or- (RD)) 
HER, RBM REE BRE. HMR’) 是 通过 如 下 方式 获得 的 : 首先 把 时 
间 固 定 为 t 时 刻 对 RR 做 选择 操作 ， 然 后 在 用 户 和 物品 的 维度 做 投影 。 换 名 话说 ， 把 时 间 固 


O 在 传统 数据 库 上 下 文中 ， 维 度 和 属性 的 含义 相同 。 然 而 在 这 种 情况 下 ， 是 一 个 属性 集合 和 一 个 维度 相关 联 ， 
所 以 它们 不 是 一 回 事 。 
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定 为 :， 对 数据 立方 体 做 的 二 维 切片 正好 对 应 着 R G). WA 8-3 所 示 ， 其 中 阴影 部 分 是 下 
午 9 点 钟 时 全 部 的 用 户 一 物品 切面 图 。 注 意 ， 这 个 二 维 的 切片 构建 了 一 个 用 户 一 物品 矩阵 ， 
这 个 和 矩阵 可 以 使 用 传统 的 协同 过 滤 算 法 。 当 上 下 文 被 固定 于 下 午 9 点 钟 时 ， 这 种 方法 可 以 
被 用 于 评分 预测 。 一 般 来 说 ， 通 过 下 面 的 三 维 函 数 gg 和 传统 的 二 维 协同 过 滤 函 数 fe'o) 之 
间 的 关系 ， 可 以 在 切片 上 ， 把 三 维 的 评分 预测 降 为 二 维 的 评分 预测 : 

V (uist) CEUX I XT. grusist) = frin Cusi) 
上 述 方法 可 以 很 简单 地 被 推广 到 维度 wo 38 的 Di…Du 情 况 ， 只 需 固定 余下 的 w 一 2 个 维度 
即 可 。 没 有 被 固定 的 两 个 维度 ， 被 称 为 主要 维度 ， 相 比 之 下 ， 别 的 维度 是 上 下 文 维度 。 在 
某 些 典型 的 应 用 中 ， 用 户 和 物品 是 主要 维度 。 通 过 固定 上 下 文 维度 的 值 ， 我 们 能 提取 只 定 
义 在 两 个 主要 维度 上 的 特定 切片 或 者 段 。 传 统 的 协同 过 滤 的 算法 便 能 用 在 这 些 片段 上 。 


将 上 下 文 固定 为 下 午 9 点 
后 ， 在 阴影 切片 上 采用 
人 





图 8-3 在 降 维 方法 中 ， 通 过 固定 上 下 文 来 提取 一 个 二 维 切 片 


由 于 给 定 的 切片 上 只 有 很 少 一 部 分 评分 ， 所 以 有 时 并 没有 足够 的 数据 去 执行 一 个 准确 
的 推荐 。 这 时 可 以 通过 使 用 与 时 刻 t 邻近 的 切片 做 聚集 来 得 到 更 加 准确 的 推荐 。 例如， 可 
以 使 用 晚上 7 点 到 11 点 之 间 的 所 有 切片 ， 而 不 只 是 使 用 晚上 9 点 的 切片 ， 然 后 对 这 些 切 
片上 的 评分 求 平均 来 生成 结果 和 矩阵。 然后 将 二 维 的 推荐 技术 应 用 于 该 平均 切片 上 。 

这 个 降 维 方法 的 主要 优点 是 它 只 在 相关 的 评分 〈 基 于 上 下 文 的 内 容 被 挑选 出 的 评分 ) 
上 做 协同 过 滤 。 这 在 很 多 情况 下 能 够 提高 推荐 的 精确 性 ， 但 其 代价 是 更 少 的 评分 被 用 于 预 
测 。 对 相 邻 切片 做 平均 允许 保留 一 定数 量 的 相关 性 数据 ， 同 时 又 降低 了 数据 的 稀疏 性 。 然 
而 ， 稀 下 问 题 在 很 多 情况 下 会 非常 严重 ， 即 使 用 平均 技术 也 不 一 定 能 增加 太 多 的 评分 数 
量 。 当 可 用 评分 数量 太 少 时 ， 很 容易 产生 过 拟 合 现象 ， 不 难 预料 到 在 这 种 情况 下 方法 的 精 
确 性 也 不 会 太 高 。 

有 很 多 自然 的 方法 是 以 损失 精细 度 为 代价 来 处 理 数据 稀 玖 的 问题 。 一 个 极端 的 例子 
是 ， 用 户 会 忽略 上 下 文 ， 而 在 所 有 可 能 的 (组 合 ) 上 下 文 值 上 对 评分 矩阵 求 平均 。 这 样 的 
方法 比 本 地 模型 (根据 上 下 文 对 评分 做 出 预选 择 ) 包含 更 少 的 相关 评分 。 之 前 所 述 的 方法 
只 在 上 下 文 变量 的 相 邻 值 上 做 平均 (例如 对 从 下 午 7 点 到 11 点 的 评分 切片 做 平均 ) ， 而 这 
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里 所 述 的 方法 显然 是 前 者 的 极端 的 泛 化 。 我 们 把 这 种 极端 的 方法 称 为 全 局 方法 。 和 使 用 上 
下 文 的 本 地 切片 相 比 ， 尽 管 全 局 方法 使 用 更 少 的 相关 评分 ， 但 是 它 将 会 从 平均 切片 中 使 用 
更 多 的 评分 数据 。 这 两 种 方法 精确 性 的 优 劣 取决 于 对 相关 性 和 稀 玲 性 的 权衡 。 在 很 多 实际 
应 用 中 ， 已 经 观察 到 这 两 种 方法 中 哪 一 种 更 好 取决 于 当前 所 关注 的 是 评分 矩阵 的 哪 一 部 分 
数据 。 


8.3.1 基于 集成 的 改进 


因为 全 局 方法 和 局 部 方法 的 相关 性 能 的 不 可 预测 性 ,产生 了 这 样 一 种 问题 : 如 何 把 两 
种 方法 结合 起 来 得 到 一 种 在 大 多 数 情 况 下 精确 度 较 高 的 技术 。 尽 管 本 地 方法 产生 了 相关 度 
更 高 的 结果 ,但 是 如 果 与 上 下 文 相关 的 评分 数据 太 少 ， 可 能 会 造成 过 拟 合 。 我 们 将 讨论 一 
种 基于 集成 的 方法 来 提高 预测 的 精确 性 。 该 方法 的 目标 就 是 在 预测 过 程 中 使 用 最 好 的 技 
术 。 换 名 话说 ， 局 部 矩阵 和 全 局 矩阵 都 有 可 能 被 使 用 ， 这 取决 于 用 户 关注 评分 矩阵 的 哪 一 
部 分 。 这 种 方法 会 在 稀 朴 性 和 局 部 相关 性 之 间 做 出 最 佳 权衡 。 在 这 个 背景 下 ， 模 型 桶 混合 
方法 〈 见 第 6 章 6.4.2 节 ) 是 非常 有 用 的 ， 因 为 它 有 助 于 在 性 能 不 同 的 模型 中 决定 使 用 哪 
一 种 。 然 而 这 种 方法 需要 量 身 定制 ， 所 以 它 的 困难 不 在 于 选择 最 好 的 模型 ， 而 在 于 选择 最 
好 的 数据 段 来 训练 模型 。 

在 接 下 来 的 讨论 中 ， 使 用 上 下 文 变量 的 值 的 组 合 来 定义 评分 立方 体 上 的 数据 段 。 例 
如 ， 如 果 主 要 变量 是 用 户 和 物品 ， 那 上 下 文 变量 就 是 位 置 和 时 间 ， 然 后 位 置 一 时 间 对 的 每 
个 可 能 的 值 上 都 定义 了 一 个 数据 段 。 当 一 个 附带 着 特定 的 位 置 -时 间 的 推荐 问题 被 提出 时 ， 
对 于 推荐 算法 来 说 ， 判 断 使 用 这 个 上 下 文 是 否 真 的 有 用 是 很 重要 的 。 

在 训练 步骤 中 ， 该 方法 首先 识别 每 个 数据 段 上 交叉 验证 的 精确 性 。 例 如 ， 当 上 下 文 是 
位 置 和 时 间 时 ， 可 以 使 用 所 有 的 位 置 一 时 间 对 来 计算 交叉 验证 的 精确 性 。 在 某 些 情况 下 ， 
当 一 个 层级 树 结构 的 上 下 文 可 用 时 ， 树 中 高 级 别 的 结 点 可 以 被 用 来 定义 位 置 一 时 间 对 的 所 
有 可 能 性 。 为 每 个 位 置 一 时 间 对 创建 一 个 表格 ， 其 中 包含 了 获得 最 高 精确 性 的 最 佳 泛 化 。 
例如 ， 如 果 上 下 文 变量 是 位 置 和 时 间 ， 位 置 -时 间 对 (OPM, Boston) 的 泛 化 举例 可 以 是 
(night, Boston), (9PM, Massachusetts), (night, Massachusetts) (9PM, *), (*, 
Boston), (night, *), (*, Massachusetts) 以 及 〈* ，x* )。 对 于 每 一 个 类 似 于 (9PM, 
Boston) 这 样 的 上 下 文 ， 这 个 表格 将 会 包含 正确 级 别 的 泛 化 使 得 其 精确 性 最 高 。 级 别 的 确 
定 是 通过 在 训练 集 上 使 用 交叉 验证 。 包 含 太 少 评分 的 段 被 忽略 。 在 测试 步 又， 使 用 该 表格 
识别 出 合适 的 数据 段 。 只 有 使 用 特定 的 数据 段 ， 才 能 提供 最 佳 性 能 的 结果 。 

那么 交叉 验证 的 步骤 究竟 是 如 何 实施 的 ? 例如 ， 对 于 上 下 文 (9PM, Boston), ， 在 训 
练 立方 体 中 的 与 其 相关 的 评分 被 识别 出 。 然 后 使 用 第 7 章 中 描述 的 交叉 验证 法 把 这 些 评分 
值 生成 片段 。 同 样 的 折 又 片段 被 用 来 测试 多 种 (OPM, Boston) WIE. PRR TRE 
的 精确 性 。 实 际 上 ， 一 种 更 精细 的 方法 是 选择 最 佳 的 数据 段 ， 但 是 这 样 更 容易 造成 过 拟 
合 。 当 有 一 个 本 地 片段 上 的 性 能 远 远 超 过 其 泛 化 片段 上 的 性 能 时 ， 才 选择 使 用 本 地 片段 。 

这 种 方法 的 一 个 问题 就 是 当 上 下 文 可 能 值 的 数量 很 大 时 ， 它 的 代价 可 能 会 很 昂贵 。 例 
如 ， 在 之 前 提 到 的 例子 中 ， 必 须 对 所 有 可 能 的 位 置 一 时 间 组 合 的 所 有 泛 化 计算 其 精确 性 。 当 
上 下 文 可 能 值 的 规模 很 小 时 是 可 行 的 。 和 否则， 训练 阶段 的 计算 就 会 变 得 非常 昂贵 。 在 某 些 情 
况 下 ， 不 用 精确 的 计算 各 种 泛 化 的 精确 性 ， 而 可 以 使 用 更 简单 的 启发 式 方法 。 可 以 将 精确 性 
的 计算 替换 成 计算 每 个 特定 上 下 文 的 所 有 可 能 泛 化 的 训练 样本 〈 评 分 ) 数 。 最 低级 别 (最 具 
体 ) 的 泛 化 包含 了 最 少数 量 的 评分 。 基 本 的 思想 是 确保 在 有 限 的 训练 集 上 能 避免 过 拟 合 现象 。 
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8.3.2 多 级 别 的 估计 


目前 为 止 ， 我 们 仅仅 讨论 了 如 何在 低级 别 的 层级 上 用 已 有 的 评分 来 估计 其 他 低级 别 上 
的 评分 。 然 而 ， 在 某 些 情况 下 ， 某 个 用 户 可 能 已 经 指定 了 较 高 层级 上 的 评分 。 例 如 ， 一 个 
用 户 可 能 会 指定 某 个 和 各 电影 相反 的 电影 题材 的 评分 ， 这 就 产生 了 一 个 问题 ， 如 何 使 用 这 
个 较 高 级 别 的 评分 来 提高 估计 的 性 能 。 基 本 思想 是 给 最 低级 别 的 赋予 评分 ， 使 得 更 低级 别 
(后 继 结 点 ) 上 的 已 观测 评分 和 预测 评分 的 平均 值 与 较 高 级 别 (祖先 结 点 ) 上 的 已 观测 评 
分 尽 可 能 接近 。 例 如 ，David 可 能 已 经 对 像 《Terminator》 这 一 类 的 动作 片 指定 了 评分 。 
那么 如 何 才 能 将 不 同 级 别 上 的 评分 整合 来 提供 一 个 整体 的 预测 呢 ? 

S David 对 于 动作 片 的 评分 为 r。 。 在 这 种 情况 下 ，David 对 于 最 低级 别 的 动作 片 的 预 
测评 分 应 该 使 得 他 的 已 观测 评分 和 预测 评分 的 平均 值 和 rs 尽 可 能 接近 。 在 极端 情况 下 ， 我 
们 可 以 强行 使 其 相等 。 换 句 话 说， 我 们 强加 了 让 David 对 动作 电影 的 预测 评分 和 已 观测 评 
分 的 和 等 于 n。* rs 这 样 的 约束 ， 其 中 ns 是 动作 片 的 总 量 。 注 意 ， 这 是 协同 过 滤 问 题 中 变量 
的 一 个 线性 约束 。 还 将 会 有 很 多 对 于 不 同 用 户 和 不 同 级 别 上 的 指定 评分 的 约束 。 因 此 ， 除 
了 被 用 于 协同 过 滤 的 那些 标准 技术 以 外 ， 指 定 题材 的 约束 也 被 用 来 进行 David 的 评分 预 
测 。 这 种 问题 可 以 被 形式 化 为 一 个 附带 线性 约束 的 最 优化 问题 。L6] 中 的 研究 并 没有 提供 
更 多 的 关于 如 何 把 这 种 方法 应 用 于 真实 协同 过 滤 算 法 的 细节 ， 这 个 问题 仍 有 竺 研究 。 这 种 
类 型 的 最 优化 建 模 能 够 对 未 来 的 研究 提供 一 个 很 有 前 途 的 方向 ; 主要 的 警告 是 必须 有 足够 
多 的 评分 来 防止 过 拟 合 的 发 生 。 


8.4 后 过 滤 方 法 


在 预 过 滤 方 法 中 ， 首 先 把 相关 的 数据 片段 提取 出 来 ,然后 把 协同 过 滤 算 法 运用 在 这 些 
被 提取 出 的 片段 上 。 因 此 ， 过 滤 是 在 应 用 协同 过 滤 算 法 之 前 ， 实 施 在 输入 数据 上 的 。 预 过 
滤 这 个 词 前 面 的 限定 词 “ 预 ”就 源 于 这 个 事实 。 在 后 过 滤 中 ， 过 滤 步 又 是 在 应 用 一 个 全 局 
协同 过 滤 算 法 之 后 被 应 用 在 给 出 数据 上 ， 该 算法 并 不 考虑 数据 集中 的 上 下 文 信息 。 

在 后 过 滤 方 法 中 ， 上 下 文 信息 被 忽略 ， 通 过 对 所 有 可 能 上 下 文 上 的 评分 做 聚集 得 到 一 
个 全 局 的 二 维 评分 矩阵 。 例 如， 对 于 每 个 用 户 - 物 品 组 合 的 评分 可 能 是 通过 对 所 有 可 能 上 
下 文 上 的 可 用 评分 做 平均 得 到 的 。 接 着 ， 再 使 用 上 下 文 对 这 些 评分 进行 调整 。 因 此 ， 这 种 
方法 由 下 面 两 个 步 又 组 成 ， 

D 通过 在 聚集 的 用 户 一 物品 矩阵 上 应 用 一 个 传统 的 协同 过 滤 模 型 来 生成 推荐 。 因 此 ， 
在 第 1 步 中 上 下 文 是 被 忽略 的 。 

2) 然后 利用 上 下 文 来 对 推荐 列表 进行 调整 或 者 过 滤 。 

那么 如 何 把 多 维 评分 立方 体 聚 集成 一 个 二 维 的 评分 矩阵 呢 ?” 在 显 式 评分 情况 下 ， 肾 集 
过 程 指 的 是 对 于 对 已 观测 值 求 平均 ， 而 在 隐 式 反馈 矩阵 情况 下 《〈 比 如 销售 量 )， 聚 集 过 程 
指 的 是 对 评分 值 求 和 。 注 意 ， 求 和 或 者 求 平均 值 这 两 种 方法 一 般 不 会 产生 同样 的 推荐 结 
果 ， 因 为 对 于 不 同 的 用 户 -物品 组 合 ， 已 观测 值 的 数量 各 不 相同 。 在 隐 式 反馈 评分 矩阵 中 ， 
求 和 方法 要 优 于 求 平均 值 的 方法 ， 因 为 非 零 值 的 数量 说 明了 用 户 对 该 物品 的 兴趣 程度 。 

考虑 到 这 样 一 种 情形 ， 某 个 用 户 已 经 针对 同一 个 物品 的 三 种 不 同 的 上 下 文 〈 比 如 上 
午 、 下 午 、 晚 上 〉 提供 了 不 同 的 评分 。 这 种 情况 下 ， 通 过 对 这 些 不 同上 下 文 上 的 评分 求 平 
均值 来 创建 一 个 全 局 的 二 维 的 用 户 -物品 评分 和 矩阵。 对 于 隐 式 反馈 矩阵 ， 需 要 对 不 同上 下 
文 上 的 1 的 数量 求 和 。 结 果 和 矩阵 中 不 再 包含 特定 上 下 文 信息 ， 因 为 上 下 文 维度 已 经 被 肾 
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E., HTF w 维 的 立方 体 ， 需要 对 所 有 的 (w 一 2) 维 组 合 上 的 评分 值 进行 聚集 。 例 如 ， 如 
果 存 在 两 个 上 下 文 分 别 对 应 位 置 和 时 间 ， 用 户 对 于 同一 个 物品 在 不 同 的 位 置 ~ 时 间 组 合 上 
的 评分 需要 被 聚集 。 如 果 这 个 用 户 没 有 在 任何 一 个 上 下 文 上 对 该 物品 进行 评分 ， 那 么 在 聚 
集 后 的 矩阵 中 对 应 项 也 会 是 缺失 的 。 最 终 的 结果 是 一 个 类 似 于 传统 的 协同 过 滤 中 的 二 维 
矩阵。 

为 了 对 每 个 用 户 创建 预测 评分 7w 和 一 个 对 应 的 物品 的 排名 列表 ， 可 将 传统 的 协同 
过 滤 算 法 应 用 在 这 个 聚集 矩阵 上 。 但 是 ， 这 个 排名 列表 对 上 下 文 信息 不 敏感 ， 因 为 在 推荐 
过 程 中 ， 上 下 文 维度 被 忽略 了 。 后 过 滤 策 略 是 在 评估 结果 已 经 形成 后 对 结果 进行 调整 。 具 
体 的 调整 方法 有 两 种 方式 。 第 一 种 方法 是 过 滤 掉 那些 无 关 项 ， 第 二 种 方法 指 的 是 基于 潜在 
的 上 下 文 来 调整 推荐 列表 的 排名 。 后 者 可 以 看 作 是 前 者 的 软 版 本 。 对 于 给 定 的 用 户 一 物品 
组 合 ， 这 两 种 形式 的 后 过 滤 技 术 都 会 对 预测 评分 ry 进行 调整 。 

有 一 种 方法 是 基于 与 用 户 和 物品 相关 联 的 属性 ， 使 用 启发 式 方法 来 调整 或 者 过 滤 推 荐 
列表 。 在 8.2 节 的 末尾 讨论 了 和 维度 相关 联 的 属性 的 概念 。 例 如 ， 如 果 上 下 文 指 的 是 { 夏 
天 ， 冬 天 }， 那 么 一 个 服装 商 可 能 想 要 在 夏天 这 个 上 下 文 上 过 滤 掉 毛衣 以 及 厚 夹克 ， 尽 管 
这 些 衣服 在 推荐 物品 的 列表 中 排名 很 靠 前 我 们 能 够 使 用 属性 信息 来 检测 到 这 些 物品 。 

比如 ， 对 于 某 个 衣服 物品 来 说 , “羊毛 ”属性 可 能 是 和 季节 属性 相关 的 。 一 个 启发 式 
的 方法 就 是 对 于 一 个 给 定 的 上 下 文 ， 找 到 与 之 相关 的 共有 物品 属性 。 那 些 没有 足够 数量 的 
相关 属性 的 物品 会 被 过 滤 掉 。 该 方法 的 一 个 更 加 精炼 的 版 本 是 ， 用 属性 来 构建 一 个 预测 模 
型 来 评估 物品 和 给 定 上 下 文 的 相关 性 。 这 种 方法 是 可 取 的 ， 因 为 我 们 能 够 使 用 很 多 传统 的 
机 器 学 习 技术 来 构建 预测 模型 。 那 些 相 关 度 很 低 的 物品 就 会 被 过 滤 掉 。 这 种 方法 类 似 于 判 
€: 基于 上 下 文 C， 用 户 喜欢 物品 j 的 概率 P(u,j,C)。P(u,j,C) 的 值 不 需要 使 用 基于 
上 下 文 的 模型 来 评估 。 例 如 ， 某 个 用 户 甚至 会 使 用 一 个 协同 方法 连同 预 过滤 技 术 来 评估 
P(x,j,C)。 这 和 之 前 章节 中 提 及 的 预 过 滤 技 术 完全 相同 。 然 而 ， 并 不 是 把 预 过 滤 预 测 直 
接 作为 最 终结 果 ， 而 是 将 其 进行 归 一 化 到 0, D 范围 之 内 ， 然 后 再 乘 以 根据 全 局 数据 估 
计 出 的 预测 评分 rw 。P(z,7,C)。 关 现在 被 定义 为 经 过 后 过 滤 之 后 的 预测 值 的 一 个 调整 
值 ， 而 且 它 可 能 会 被 用 来 调整 排名 。 或 者 ， 当 Puj CO) +7, 的 值 很 小 的 时 候 ， 我们 可 以 
简单 地 从 排名 列表 中 移 除 物品 7 。 在 更 多 的 情况 下 ， 后 过 滤 比 预 过 滤 更 加 健壮 ， 因 为 其 方 
法 将 局 部 信息 PC(w,j,C) 和 利用 全 部 数据 获取 到 的 评分 六 结合 了 起 来 。 

在 对 于 上 下 文 C 的 可 用 数据 量 很 有 限 的 情况 下 ，P(x,j,C) 的 值 可 以 与 用 户 thie. 
换 甸 话说， 训练 数据 被 用 于 所 有 的 用 户 ， 通 过 一 个 基于 内 容 的 模型 将 物品 7 和 上 下 文 C it 
行 关联 。 对 于 每 个 物品 &， 它 的 属性 被 当 作 特征 变量 ,物品 在 上 下 文 C 上 被 消费 的 时 间 
比例 被 当 作 一 个 数值 型 独立 变量 。 通 过 构建 一 个 线性 回归 模型 将 属性 和 上 下 文 进行 关联 。 
然后 ， 对 于 每 个 物品 /7 ， 这 个 线性 回归 模型 被 用 于 估计 PE ,j,C)。 注 意 ， 我 们 使 用 符 
号 * (无所谓 ) 作为 用 户 参 数 ， 因 为 这 个 模型 与 当前 用 户 独 立 。 在 后 过 滤 步 又 之 后 ， 对 于 
AP i 对 物品 i 的 最 终 评分 预测 值 被 定义 为 PC* ,j,C) + ry. 


8.5 上 下 文 建 模 


在 预 过 滤 和 后 过 滤 中 ， 协 同 过 滤 问 题 都 被 降 维 到 二 维 环境 中 ， 而 上 下 文 分 别 被 用 在 过 
程 前 和 过 程 后 。 这 种 方法 的 主要 缺点 就 是 上 下 文 没有 被 很 紧凑 地 集成 到 推荐 算法 中 。 这 样 
的 方法 不 能 充分 利用 不 同 的 用 户 一 物品 组 合 与 上 下 文 的 关系 。 上 下 文 建 模 方 法 就 是 为 了 探 
索 这 种 可 能 性 而 设计 的 。 
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通过 把 现 有 模型 〈 例 如 基于 近邻 的 方法 ) 修改 为 ww 维 下 的 场景 ， 可 以 实现 将 上 下 文 直 
接 散 入 推荐 过 程 。 这 样 的 方法 提供 了 一 种 最 灵活 的 和 最 泛 化 的 上 下 文敏 感 的 推荐 ， 克 服 了 
二 维 算法 的 阻碍 。 接 下 来 的 章节 将 回顾 几 种 这 样 的 方法 。 


8.5.1 基于 近邻 的 方法 


可 以 修改 现 有 的 基于 近邻 的 方法 来 实施 该 想法 从 而 实现 上 下 文敏 感 的 推荐 。L7，8] 
中 呈现 了 该 方法 的 一 个 例子 。 但 是 ， 由 于 在 相似 度 计算 中 使 用 了 上 下 文 维度 ， 所 以 这 种 方 
法 和 传统 的 用 户 - 用 户 或 者 物品 -物品 方法 相 比 较 而 言 会 略 有 不 同 。 为 了 方便 讨论 ， 我 们 
考虑 上 下 文 是 时 间 的 情况 。 因 此 ， 我 们 有 三 个 维度 ， 分 别 对 应 用 户 、 物 品 和 时 间 。 第 一 步 
是 分 别 单 独 在 用 户 、 物 品 和 时 间 上 来 计算 距离 。 考 虑 三 维 立方 体 中 的 两 个 点 ， 分 别 对 应 于 
A=(u,i.t) 和 B=(w ,i ,t)。 然 后 ，A 和 B 之 间 的 距离 可 以 被 定义 为 在 各 自 维 度 的 加 权 
距离 的 和 。 换 句 话说， 我 们 有 : 

Dist(A,B) = w + Dist(u,u’) + we « Dist(i,i’) + w » Dist(z,2’) (8-3) 
在 这 里 ，w1 、rw 和 ws 各 自 表示 的 是 用 户 、 物 品 和 上 下 文 (时 间 ) 维度 的 相关 重要 性 。 注 
意 ， 在 前 面 的 求 和 中 ， 用 户 可 以 添加 更 多 感 兴 趣 的 上 下 文 维度 ， 而 不 仅仅 是 时 间 。 或 者 ， 
也 可 以 使 用 加 权 的 欧 氏 距离 测度 : 

Dist(A,B) = yw © Dist(u,w’)? + we » Dist(i,i )? + w; + Dist, t)? (8-4) 
然后 ， 对 于 三 维 矩 阵 上 一 个 给 定 的 单元 格 ， 通 过 这 个 指标 来 确定 离 其 最 近 的 > 个 〈 已 观察 
的 ) 评分 。 这 些 评分 的 加 权 平 均值 被 定义 为 预测 评分 。 这 里 权重 使 用 的 A 和 B 之 间 的 相 
似 度 ， 也 被 定义 为 1/Dist(A,B)。 为 了 对 给 定 的 用 户 u 和 上 下 文 t 做 推荐 ， 我们 可 能 需要 
把 这 个 过 程 应 用 在 每 个 物品 上 ， 然 后 推荐 前 & 个 物品 。 

这 样 又 产生 了 一 个 问题 ， 就 是 如 何 计算 Dist(u.u’), Dist(i,i’) 和 Dist(i,t )。 有 几 种 
不 同 的 计算 方法 : 

1) 协同 : 在 这 种 情况 下 ,我们 能 使 用 Pearson 方法 或 者 调整 后 的 余弦 函数 来 计算 
Dist(u,u’), Dist(i,i’) 和 Dist(t,t)。 例 如 ， 可 以 通过 提取 对 应 用 户 x 和 用 户 x 的 二 维 切 
片 来 计算 w 和 ww 之 间 的 距离 。 我 们 可 以 把 基于 近邻 的 相似 性 测度 进行 泛 化 (参考 第 2 章 ) 
来 计算 当 用 户 分 别 为 w 和 ww 时， 所 有 评分 之 间 的 Pearson 系数 。 因 此 ， 用 户 和 ww 在 整个 

品 六 上下文 网 格 上 的 已 观测 数据 被 用 于 了 Pearson 计算 。 相 似 度 的 倒数 被 用 来 确定 距离 
值 。 类 似 的 方法 能 被 用 来 计算 物品 方面 和 上 下 文 方面 的 距离 ， 也 就 是 Dist, i) 和 
Dist(t.t’) 。 

2) 基于 内 容 : 在 这 种 情况 下 ， 和 维度 相关 的 属性 〈 比 如 用 户 画 像 和 物品 画像 ) 被 用 
来 计算 画像 。 一 系列 像 余 弦 这 样 的 基于 文本 的 测度 被 使 用 。 也 能 用 类 似 的 方法 来 计算 
Dist(t,t)， 通 过 将 每 个 上 下 文 和 与 它 频繁 共同 出 现 的 文本 属性 相关 联 。 或 者 ， 属 性 会 与 
某 特定 上 下 文 相 关 ， 比 如 季节 、 工 作 日 ， 等 等 。 这 种 方法 可 被 看 作 是 一 个 整体 的 混合 式 方 
法 ， 因 为 它 的 表现 是 以 内 容 为 中 心 的 ， 但 总 体 方法 是 使 用 协同 过 滤 的 框架 。 

3) 组 合 : 可 以 把 协同 和 基于 内 容 的 方法 组 合 起 来 得 到 一 个 更 加 健壮 的 相似 性 测度 。 
相关 权重 可 以 通过 使 用 交叉 验证 方法 推断 得 出 ， 使 得 预测 的 精确 度 最 大 化 。 

根据 当前 特定 的 应 用 可 能 会 设计 不 同 的 距离 函数 从 而 产生 了 方法 的 各 种 变形 。 尽 管 
对 于 当前 的 应 用 可 能 会 有 特定 的 实现 方法 , 但 之 前 提 到 的 方法 描述 了 一 个 更 一 般 的 思 
想 。 值 得 注意 的 是 ， 这 种 方法 可 以 被 看 作 是 第 2 章 2. 3.6 节 讨 论 过 的 用 户 一 物品 方法 在 
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8. 5.2 潜在 因子 模型 


张 量 分 解 可 以 被 看 作 是 和 矩阵 分 解 的 一 种 泛 化 ， 在 张 量 分 解 中 是 对 n 维 的 数据 立方 体 
(而 不 是 二 维 的 矩阵 ) 的 分 解 。 传 统 的 上 下 文敏 感 的 表示 确实 是 一 个 w 维 的 立方 体 ， 因 此 
它 特别 能 够 很 好 地 适用 于 张 量 分 解 。 从 这 层 意义 上 来 说 ， 张 量 分 解 方 法 能 够 看 作 是 推荐 系 
统 中 传统 的 矩阵 分 解 方法 在 上 下 文中 的 推广 。 由 于 对 于 张 量 的 详细 讨论 超出 了 本 书 范 围 ， 
读者 可 以 去 阅读 (212, 294, 332, 495, 496] 来 查看 关于 这 些 方法 的 更 多 细节 。 一 个 有 
关 高 阶 张 量 分 解 方 法 的 特别 显著 的 例子 是 多 元 推荐 模型 [294 ]。 多 元 推荐 模型 使 用 的 是 高 
Bt Tucker 分 解 5%5] ， 这 个 分 解 的 复杂 度 是 随 着 分 解 的 顺序 以 指数 方式 增加 。 

关于 张 量 分 解 的 应 用 是 计算 密集 型 的 ， 尤 其 当 潜 在 的 数据 立方 体 很 大 时 。 在 大 多 数 情 
况 下 ， 在 这 样 的 环境 下 使 用 高 阶 张 量 分 解 会 有 些 过 于 夸张 bl86] 。 还 存在 其 他 几 种 在 多 维 环 
境 下 应 用 潜在 因子 模型 的 简化 的 方法 。 其 中 一 些 简 化 的 分 解 方法 仅仅 在 不 同 维度 之 间 采 用 
成 对 的 交互 [496， ,498] 

这 里 ， 我 们 描述 一 种 成 对 交互 的 方法 。 一 种 紧密 相关 的 排名 方法 ， 被 称 为 成 对 交互 张 
EA (PITAM, ， 这 种 方法 同时 也 被 用 在 标签 推荐 中 。 这 个 描述 可 以 被 看 作 是 [496] 
中 讨论 过 的 分 解 机 这 个 概念 的 一 种 特殊 情况 。 令 R=Lric」 是 一 个 大 小 为 mXnXd 的 三 维 
的 评分 立方 体 ， 其 中 x 个 用 户 、n 个 物品 以 及 4d 个 上 下 文 维度 的 不 同 值 。 例如， 在 图 8-1 
中 , RTA m=6. n=4 M d=5, ik U= Lus] VV 三 [wj」] MWS [ws] 分 别 是 mX k, 
nXk, dXk 的 和 矩阵。 这 里 ，U 表示 用 户 一 因子 和 矩阵，V 表示 物品 -因子 矩阵， 网 表示 上 下 
文 一 因子 矩阵 。 符 号 & 表示 潜在 因子 模型 排名 。 然 后 ， 数 据 立方 的 第 (i，;，k) 个 元 素 的 
简化 的 预测 函数 的 基本 原则 就 是 基于 在 用 户 、 物 品 和 上 下 文 之 间 的 成 对 交互 。 这 意味 着 下 
面 的 预测 函数 : 

rjc = (UV") + (VW) + (UW Dic (8-5) 


k 
= Dy Cus Djs + Vjs Wes + Us Wa) (8-6) 


s=1 

很 容易 能 够 看 出 这 个 预测 函数 是 潜在 因子 模型 的 一 种 简单 的 推广 。 我 们 现在 能 够 像 在 所 有 
的 潜在 因子 模型 中 那样 ， 使 用 这 个 预测 函数 来 建立 最 优化 问题 。 令 S 是 所 有 在 R 中 已 观测 
项 的 集合 。 

S = {(i,jsc) fije 是 已 观测 的 } (8-7) 
在 R 是 一 个 隐 式 反馈 矩阵 的 情况 下 ， 未 知 的 项 的 一 个 样本 也 需要 被 包含 在 S P, BERE 
已 观测 项 的 值 都 是 0。 之 所 以 这 样 做 的 细节 原因 请 参考 第 3 章 3. 6. 6. 2 节 。 

然后 ， 在 所 有 已 观测 项 上 的 误差 需要 按照 如 下 来 进行 最 小 化 : 
k m n d 
Minimize JE L a A — Pye)? PI (2 we +> vi, + X w? 


(isj rt)ES 


k 
=} D (rje — D) Cus Ut Uj Wes Hur wal) + 


Cjo) ES s=1 


a +2 +5 we ) 


s=1 i=l 
最 后 一 项 是 正则 化 项 ， 其 中 4 二 0 是 正则 化 参数 值 。 
我 们 需要 求解 U、V 和 W 中 的 参数 值 。 为 了 获得 有 关 梯 度 下 降 方法 的 更 新 方向 ， 我 们 
可 以 考虑 U、V 和 W 中 的 单个 元 素来 确定 本 的 偏 导 数 。 因 此 ， 所 有 在 U、V 和 W 中 的 元 素 
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值 按 如 下 方式 被 同时 更 新 : 
oJ 
Ouig 
ƏJ yjyge (1k) 
Ə vj 
aJ 
Ə Wey 
HH, o> 0 是 步骤 的 数量 。 正 如 在 传统 的 潜在 因子 模型 中 那样 ， 梯 度 下 降 的 方向 取决 于 在 
S 上 的 所 有 已 观测 项 的 误差 值 ej. = 二 ri 一 7j. 。 对 应 的 更 新 如 下 : 
Uig = uq tal DI eje * (vg Fwy) —A* ug) YiYqE {1++-k} 
ES 


PresCisjre) 





Uig S Uig — a 


Vig € pdk) 





Vjq = Vj — a 





Wa = Wq — a 


Mewa E {1k} 


Vi = Ug tal > eije * Cuy Hwa) —A* Vig) YjYqg E {lek} 


isc:(i jec) ES 


Wa = Wy +a > eije * (tig Hva) —A* Wa) WVeVg € {lek} 


ES 
一 个 更 快 的 可 选 方案 是 使 用 随机 的 梯度 下 降 。 在 随机 梯度 下 降 中 ， 没 有 同时 在 S 中 所 有 的 
误差 值 上 下 降 ， 我 们 可 以 在 关于 单个 已 观测 项 (i,j,c)ES 上 下 降 ， 这些 项 是 随机 选择 的 : 
oa ] 

日 Uig J(i,jwc) 的 贡献 量 
al ] 
日 Vja JGJ ORT WE 


Pan ad sd 
a ee F ed bas TPE L 


在 计算 这 些 贡 献 的 时 候 ， 可 以 对 于 特定 的 (i,j,c) ES 和 第 g PREA A<q<k) 来 执 
行 下 面 几 步 : 





Va € {lek} 


Uig = Uig =i 





Vg € ilek} 


Uja S Vj — a | 





uig = Uig 十 al ei e Cug + Wey) 2 Vg € {lk} 


Vi = Vjg +ales * (uig + tq) — Bit) Wg E {1k} 


了 





Wa FH Wey +a( ee © (uig + vg) -2 ta) Vg € {lek} 


n contest 


RE, nL ni neomtes Fb RE RU A APR KAP i. ih MEP ce 的 已 观 
测 项 的 数量 。 使 用 这 些 项 来 标准 化 为 正则 化 形式 就 会 导致 更 好 的 收敛 ， 尽 管 它们 是 可 以 
(启发 式 地 ) 被 忽略 的 而 且 取 而 代 之 的 是 一 个 更 小 的 * 值 。 在 S 中 的 特定 项 上 必须 使 用 之 
前 提 到 的 每 一 种 更 新 方法 来 重复 循环 。 这 些 梯度 下 降 的 步骤 可 能 一 直 被 执行 到 收敛 来 获得 
和 矩阵 U、VY 和 W。 更 新 的 最 终结 果 是 类 似 于 第 3 章 3. 6. 4 节 中 讨论 过 的 传统 的 矩阵 分 解 的 
情况 。 可 参考 图 3- 9 中 的 关于 随机 梯度 下 降 的 算法 框架 。 对 伪 代 码 的 主要 改变 是 需要 使 用 
一 个 额外 的 上 下 文 因子 集合 ， 而 且 对 应 的 更 新 公式 也 要 变化 。 为 了 执行 更 新 ， 你 可 能 需要 把 
每 一 个 观察 到 的 三 元 组 G, js c) 在 图 3-9 的 算法 框架 中 循环 。 为 了 得 到 更 好 的 收敛， 需要 
在 矩阵 U、V 和 W 上 选择 不 同 的 正则 化 参数 。 这 些 正则 化 参数 的 值 可 以 使 用 交 又 验证 的 方法 
来 学 习 到 ， 也 可 以 通过 使 用 第 3 章 3. 7. 1 节 中 基线 预测 器 的 一 个 三 维 的 泛 化 ， 将 偏差 舱 入 模 
型 中 。 在 应 用 分 解 过 程 之 前 ， 对 于 用 户 i、 物 品 ; 和 上 下 文 c 的 结果 基线 预测 Bs. 可 能 会 从 对 
应 的 (已 观测 ) 项 中 被 减 去 。 在 后 过 滤 阶段 的 预测 中 ， 这 些 值 可 能 会 被 加 回去 。 


271 


272 


204 第 8 章 





这 种 方法 没有 高 阶 张 量 分 解 模型 复杂 ， 但 是 它 在 稀 朴 矩阵 上 的 性 能 非常 好 。 它 以 一 种 
添加 的 方式 进行 二 维 的 交互 而 不 需要 进行 更 高 阶 的 交互 ， 从 而 避免 了 计算 时 间 和 过 拟 合 对 
模型 造成 的 不 必要 的 阻碍 。 在 实际 环境 中 ， 评 分 立方 体 通常 是 特别 稀 朴 的 而 不 能 充分 利用 
高 阶 模型 的 优势 。 这 些 情 况 正如 之 前 在 多 维 推荐 方法 中 强调 的 那样 [4861 。 

这 个 总 体 原则 也 能 够 扩展 到 w 维 的 立方 体 ， 其 中 双 >3。 考 虑 一 个 w 维度 的 数据 立方 
体 R， 其 中 每 一 个 评分 项 被 记 为 ri …, ， 对 应 的 矩阵 维度 是 mI…nw。 然 后 ， 可 以 根据 wT 


1 w 


不 同 的 潜在 因子 矩阵 U; (其 大 小 为 we Xk(a€ {1…w})) 用 如 下 公式 来 表示 预测 评分 值 : 
Se TOU i, (8-8) 


a<b<w 

正如 在 三 维 立方 体 的 情况 中 那样 ， 最 小 二 乘法 的 最 优化 问题 也 可 以 被 设 定 。 可 以 使 用 一 
标准 化 的 梯度 下 降 方 法 来 解决 这 个 问题 。 这 种 情况 下 更 新 公式 的 求 导 请 看 习题 6。 

8. 5. 2. 1 分 解 机 

前 述 章 节 中 提 到 的 潜在 因子 方法 可 以 被 看 作 是 分 解 机 的 一 个 特殊 情况 。 大 级 别 的 模型 
(比如 SVD 和 SVD 十 十 是 分 解 机 的 特殊 情况 。 在 分 解 机 中 ， 基 本 观点 是 把 每 个 评分 建 模 
成 一 个 输入 变量 之 间 交 互 的 线性 组 合 。 输 入 变量 来 源 于 原始 的 评分 和 矩阵。 例如 ， 考 虑 这 样 
的 情况 ,我 们 有 一 个 包含 m 个 用 户 、n 个 物品 和 4 个 上 下 文 维度 的 三 维 立方 体 ， 其 中 每 个 
评分 都 和 一 个 独一无二 的 三 元 组 关联 。 可 以 把 这 个 三 维 立方 体 推 平成 一 个 (m 十 n 十 d) 维 
的 行 的 集合 ， 这 样 每 一 行 对 应 于 给 定 用 户 、 物 品 和 上 下 文 上 的 已 观测 评分 。 因 此 ， 行 的 数 
量 和 已 观测 评分 的 数量 相等 。 在 这 个 特 倒 中 ， 每 行 表 示 的 一 个 二 元 指示 符 变 量 的 向 量 ， 向 
量 中 只 有 三 个 值 为 1， 这 取决 于 与 已 观测 评分 相关 联 的 特定 的 用 户 一 物品 一 上 下 文 的 三 元 
组 。 每 行 所 有 余下 的 值 都 为 0。 我 们 把 每 行 的 变量 用 zi1…zm+n+a 来 表示 ， 其 中 的 变量 的 值 
要 么 是 0 要么 是 1。 而 且 ， 每 行 的 目标 变量 指 的 就 是 代表 那 一 行 的 评分 。 在 图 8-4 中 ,我 
们 展示 了 图 8- 1 中 的 数据 立方 体 中 的 5 个 已 观测 评分 的 扁平 化 表示 。 乍 一 看 ， 似 乎 我 们 能 
够 在 这 个 扁平 化 表示 上 直接 使 用 一 个 分 类 或 回归 预测 器 ;， 然而， 这样 的 效果 并 不 是 很 好 ， 
因为 数据 有 严重 的 稀 朴 性 〈 每 行 只 有 三 个 非 零 项 ) 。 这 里 正 是 通过 分 解 机 把 我 们 从 数据 稀 
朴 的 风险 中 解救 出 来 。 


David 
Sayani 


| 
"| 
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回归 因子 回归 值 
图 8-4 图 8-1 数 据 立方 体 中 的 5 个 已 观测 评分 被 推 平 的 表示 。 大 部 分 推荐 问题 能 够 转化 为 
稀 玖 分 类 和 回归 问题 


基本 思想 就 是 把 一 个 k 维 的 潜在 因子 和 每 个 决定 变量 z1…zp 相 关联 ， 其 中 p= Cm + 
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n 十 d)。 假 定 因子 向 量 和 第 i 个 变量 关联 ， 被 记 为 三 (va…va)。 类 似 地 ， 第 i 列 会 有 一 
个 和 它 相关 联 的 偏差 值 5;， 我 们 还 有 一 个 全 局 的 偏差 变量 g。 二 阶 分 解 机 的 评分 预测 y(z) 
按 如 下 公式 利用 因子 之 间 的 成 对 交互 来 计算 得 到 : 
p p p 
jT = g+) bait >) 2) Gee xz; (8-9) 
i=1 i=1j=iH+1 
需要 学 习 的 变量 包括 : g, Mo. SRAM MRA RSRAG A, (E TE Rh ht e 
下 ， 它 们 中 大 部 分 将 会 被 设 为 零 。 在 图 8-4 中 展示 的 例子 里 ， 只 有 三 个 交互 项 不 为 零 ， 这 
看 起 来 和 公式 (8- 6) 中 的 三 个 分 解 项 非常 相似 8 。 实 际 上 ， 很 明显 可 以 看 出 公式 (8-9) 
是 公式 (8-6) 的 基础 上 添加 额外 的 偏差 变量 后 的 泛 化 ， 而 且 我 们 可 以 设置 一 个 相似 的 最 
小 二 乘 模型 。 正 如 在 矩阵 分 解 中 的 那样 ， 在 已 观测 评分 上 循环 使 用 梯度 下 降 法 来 估计 之 前 
提 到 的 参数 。 对 任何 特定 模型 参数 9 的 更 新 步骤 依赖 于 预测 值 和 观测 值 之 间 的 误差 e(Z) = 
y@)—j@). 
9 < 01 —a+A) tar ez) 2D (8-10) 


EXE, a>0 是 学 习 率 ，) 二 0 是 正则 化 参数 。 更 新 方程 的 偏 导数 如 下 定义 : 
1 如 果 0 是 g 
Wz) _ Ti wR O Æ bi 





= $ (8-11) 
xi >) Djs * 2j — Vis e x? WR 是 vi 
j=1 


p 
8 = AAPL L= >) vi，z; 是 值得 关注 的 。 为 了 避免 多 余 的 计算 ， 这 一 项 可 以 在 为 了 
j=l 


计算 误差 项 D=y@Q—HE@) HPAI] 之 前 被 预先 存储 。 这 是 因为 公式 (8-9) 可 
以 用 如 下 的 代数 方法 重新 排列 : 


p k b p 
y@) =g+ >) TEESID Ujs «ay |i nS Uj e Xj) 
i=] s=1 j=l J=] 


p k p 
=g+ bx +4) (L -— D vh - x} ) 
i=1 s=1 j=l 
Wb, rei =ONTRT, BHM AGRE. SEM RM FD RE ee. 
该 运行 时 间 与 非 零 项 的 数量 和 的 值 呈 线 性 关系 。 
在 这 个 特殊 的 例子 中 ， 我 们 已 假定 向 量 云 包含 三 个 1。 但 是 为 了 提高 表达 能 力 ， 分 解 
机 人 允许 任意 值 的 向 量 均 。 例 如 ,去 值 可 以 是 真实 的 或 者 在 同一 维度 (比如 上 下 文 ) 包含 多 
个 非 零 值 。 这 种 灵活 性 也 允许 成 对 的 用 户 潜在 因子 或 者 成 对 的 上 下 文 潜在 因子 的 交互 。 某 
些 情况 下 ， 一 个 上 下 文 可 能 对 应 一 个 关键 词 集 或 一 个 实体 集合 。 在 传统 的 数据 立方 体 模 型 
中 ， 并 不 存在 一 种 表示 集合 属性 的 机 制 。 例 如 ， 考 虑 上 下 文 代表 去 看 电影 的 用 户 的 同伴 集 
合 ， 因 此 每 一 个 评分 都 和 一 个 同伴 集合 (上下文) 关联 。 这 种 情况 下 ， 上 下 文 变量 zi; 对 应 
于 单个 同伴 。 如 果 用 户 John 和 Alice, Bob 还 有 Jack 一 起 观看 了 这 个 电影 ， 那 么 这 三 个 同 
伴 每 个 人 的 zx; 的 值 都 是 1/3。 对 于 直截了当 的 潜在 因子 方法 来 说 ， 这 个 例子 并 不 是 很 简单 ， 
但 是 它 表 明了 分 解 机 具有 更 强大 的 表达 能 力 。 同 时 ， 我们 可 以 很 容易 看 出 ， 这 种 方法 能 够 


日 ”这 种 相似 性 一 开始 可 能 并 不 明显 ， 因 为 两 个 公式 没有 使 用 相同 的 符号 。 分 解 机 中 的 每 个 上 维 因子 向 量 v; 等 价 
于 公式 (8-6) 中 或 者 是 用 户 因子 ,或 者 是 物品 因子 ,或 者 是 上 下 文 因子 的 矩阵 中 的 一 个 上 维 行 。 
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被 推广 到 每 个 上 下 文 都 是 和 词 频 相 关联 的 文档 的 情况 。 对 于 任何 一 个 给 定 的 评分 矩阵， 我 
们 必须 做 的 就 是 在 特征 工程 上 花费 一 些 时 间 。 已 观测 评分 〈 目 标 变量 ) 是 和 一 个 精心 设计 
的 属性 集合 相关 联 的 ， 某 些 属性 可 能 已 经 给 出 (比如 用 户 、 物 品 和 和 上下文;， 其 他 的 可 能 
需要 提取 (比如 隐 式 反馈 )。 分 解 机 的 多 功能 性 是 很 明显 的 。 例 如 ， 通 过 移 除 图 8- 4 中 的 
上 下 文 列 ， 能 够 获得 传统 的 矩阵 分 解 。 通 过 用 隐 式 反馈 变量 来 取代 图 8- 4 中 的 上 下 文 列 ， 
能 粗略 地 获得 SVD 十 十 “〈 一 些 额 外 的 添加 项 ) 。 

分 解 机 能 够 被 应 用 在 任何 〈 大 规模 稀疏 ) 分 类 或 者 回归 任务 中 ; 推荐 系统 中 的 评分 预 
测 只 是 在 应 用 中 的 一 个 例子 。 尽 管 这 个 模型 内 在 地 是 为 了 回归 问题 设计 的 ， 但 是 也 能 够 通 
过 在 数值 预测 上 应 用 逻辑 函数 来 获得 y( 云 ) 是 十 1 还 是 一 1 的 概率 ， 从 而 解决 二 元 分 类 问 
题 。 第 13 BWA 13.2.1 节 将 会 讨论 分 类 以 及 成 对 排名 的 应 用 。 实 际 上 ， 分 解 机 可 以 看 作 是 
多 项 式 回 归 583 在 抵抗 稀 朴 问题 上 的 泛 化 。 注 意 ， 公 式 (8-9) 和 二 阶 多 项 式 回归 的 预测 
函数 差别 并 不 大 。 最 重要 的 区 别 就 是 成 对 交互 xixj 的 回归 系数 wi 被 假定 满足 低 秩 假设 ， 
因此 可 以 被 表示 为 wj = 不 ， 丰 。 例 如 ， 我 们 可 能 尝试 着 不 做 低 秩 假设 而 直接 学 习 ww; ; 这 
和 使 用 二 阶 多 项 式 内 核 的 核 回归 几乎 是 等 价 的 。 由 于 wi 的 值 一 共有 Op?) = 
O([m 十 n 十 dj?) 个 ， 因 此 很 容易 发 生 过 拟 合 。 分 解 机 假定 p Xp 的 回归 系数 矩阵 W= 
[wy] 是 一 个 低 秩 和 矩阵， 能 够 用 VVT 来 表示 。 这 就 把 W=[Lrwj 」 中 的 OCP?) 个 系数 减少 
到 V=[vj」 PM Op kh) 个 系数 ， 因 此 有 助 于 减少 过 拟 合 问题 的 发 生 。 从 内 在 来 看 ， 分 
解 机 就 是 对 系数 有 低 秩 假设 的 多 项 式 回 归 模 型 。 基 本 思想 是 如 果 Jim 从 来 没有 看 过 电影 
《Terminator》， 很 难 准确 地 评估 Jim 和 《Terminator》 的 交互 系数 〈 使 用 现 有 的 多 项 式 回归 ) 。 
但 是 ， 低 秩 假设 通过 在 参数 空间 上 强加 的 系数 关系 ， 我 们 就 能 够 精确 地 估计 回归 系数 。 

本 节 的 描述 是 基于 在 实际 应 用 中 的 很 流行 的 二 阶 分 解 机 。 在 三 阶 的 多 项 式 回 归 中 ,我 
们 将 会 有 OP) 个 以 ws 形式 的 回归 系数 ， 这 系数 对 应 于 zizxjzxs 形 式 的 交互 关系 。 这 些 系 
数 将 会 定义 一 个 巨大 的 三 阶 张 量 ， 这 个 张 量 能 够 通过 张 量 分 解 被 压缩 。 尽 管 高 阶 分 解 机 也 
在 发 展 中 ,但 是 由 于 过 大 的 计算 复杂 度 和 过 拟 合 问题 ， 所 以 往往 是 不 切实 际 的。 一 个 叫 作 
libFML43j 的 软件 库 提供 了 分 解 机 很 出 色 的 应 用 和 集合。 使 用 libFM 的 主要 任务 就 是 一 个 初 
始 特 征 工程 任务 ， 模 型 的 有 效 性 主要 依赖 于 分 析 员 提取 正确 的 特征 集合 的 技能 。 

8.5.2.2 对 二 阶 分 解 机 的 总 览 

尽管 二 阶 分 解 机 假定 所 有 的 变量 对 xz; 和 zj; 会 彼此 交互 但 这 并 不 令 人 满意 。 例 如 ， 当 
上 下 文 变量 对 应 文件 的 词 频 时 ， 那么 词 频 之 间 不 大 能 彼此 交互 。 在 某 些 情 况 下 ， 比 如 
SVD 十 十 中 ， 隐 式 反馈 变量 可 能 会 和 物品 因子 交互 ， 但 是 也 不 会 和 用 户 因 子 交 互 。 类 似 
H, Æ SVD 十 十 中 隐 式 反馈 变量 不 会 和 另 一 个 隐 式 反馈 变量 交互 。 为 了 处 理 这 种 情况 ， 我 
们 定义 一 个 交互 指示 器 5 ， 这 个 指示 器 表明 是 否 允 许 变 量 之 间 的 交互 : 

1 wrn Mr 允许 交互 
oe (8-12) 
0 否则 

该 交互 指示 器 是 基于 变量 的 块 结构 (block structure) 定义 的 ， 因 此 所 有 的 t 个 值 不 需要 
被 精确 地 存储 。 例 如 ， 可 能 不 允许 用 户 变 量 和 上 下 文 变量 交互 ， 不 允许 上 下 文 变量 和 其 他 
上 下 文 变量 交互 ， 等 等 。 这 为 利用 领域 知识 分 析 块 变量 之 间 的 交互 提供 了 灵活 性 。 我 们 可 
以 像 如 下 这 样 使 用 指示 器 对 公式 〈8-9) 进行 泛 化 : 


p p p 
ST) = g++ >) xi t+ DD G+ |) 5 riz (8-13) 
i=] i=l j=i 


不 同 于 公式 (8-9)， 这 个 公式 在 6i 非 零 时 允许 zi 和 自己 交互 。 当 zi 是 实数 的 时 候 ， 这 在 一 
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些 多 项 式 回 归 的 版 本 中 是 有 用 的 。 通 过 定义 m 个 用 户 指示 器 变量 、n 个 物品 指示 器 变量 以 及 
一 个 附加 的 个 和 物品 相关 的 隐 式 反馈 变量 集合 ， 这 个 模型 能 够 被 用 于 准确 地 模拟 SVD 十 十 。 
因此 ， 存 在 两 个 分 别 对 应 于 显 式 和 隐 式 反馈 的 物品 变量 的 集合 。 对 于 隐 式 反馈 变量 来 说 ， 只 
有 在 物品 是 属于 相关 用 户 评分 的 集合 I 的 时 候 ， 特 征 值 才 是 非 零 的 。 这 些 非 零 的 值 都 被 设 
为 1/ VI 。 只 有 在 用 户 和 隐 式 反馈 Hm) 变量 之 间 以 及 显 式 和 隐 式 反馈 (物品) 变量 之 间 
的 交互 下 ，6; 的 值 才 是 1。 有 了 这 个 定义 ,很 容易 看 出 公式 (8-13) 就 是 SVD 十 十 。 
解决 方法 和 分 解 机 几乎 一 样 。 公 式 (8- 10) 中 的 更 新 步 又 可 以 被 用 于 随机 梯度 下 降 
中 。 唯 一 的 不 同 就 是 和 每 个 模型 参数 相应 的 预测 变量 的 偏 导 数 0 需要 做 如 下 修改 : 
ji 如 果 0 是 g 
ay (x) 加 Xi 如 果 0 Æ bi 


30 (8-14) 


p 
zi X ôy “Vis zj) WRO 是 vi; 
j=1 


一 个 最 近 的 方法 ， 被 称 为 SVD 特征 HJ， 也 可 以 看 作 是 这 种 情况 下 定义 合适 的 Oy 的 一 个 特 
例 。 在 KDD 杯赛 中 〈2012)0555 的 网 络 推荐 任务 中 ，SVD 特征 和 分 解 机 都 是 顶尖 的 获胜 者 。 

8. 5. 2.3 ”潜在 参数 化 的 其 他 应 用 

分 解 机 在 大 的 参数 空间 上 利用 低 秩 结构 来 降低 过 拟 合 。 一 个 很 少 被 关注 的 事实 就 是 ， 
这 个 总 体 原 则 在 此 之 前 已 经 被 用 于 协同 过 滤 中 的 条 件 分 解 受 限 玻 尔 兹 曼 机 (RBM), HE 
本 思想 是 两 个 连续 的 神经 网 络 层 之 间 的 权重 可 以 用 一 个 矩阵 W 二 [wi ] 来 表示 〈 见 图 8- 5)。 
在 协同 过 滤 中 这 个 和 矩阵 可 能 相当 大 ， 因 为 输入 层 的 规模 是 物品 的 数量 而 隐藏 层 的 规模 可 能 
是 数 百 个 单元 。W 的 大 小 是 通过 这 两 个 值 的 乘 
积 来 定义 的 。 一 个 大 的 参数 空间 范围 必然 会 导 
致 过 拟 合 。 因 此 [519] 中 的 工作 假定 矩阵 W== 
UVT 是 两 个 低 秩 矩阵 U 和 VT 的 乘积 。 与 其 去 学 
习 W， 这 个 方法 只 需要 学 习 U 和 V 的 参数 。 在 
[519] 中 已 经 展示 了 对 参数 空间 的 这 种 低 秩 降 
维 在 精确 性 和 运行 时 间 上 都 有 很 显著 的 优势 。 
这 些 结果 展示 了 一 种 利用 低 秩 结构 有 效 处 理 大 
型 矩阵 结构 的 参数 空间 的 方法 。 尽 管 在 [519] 
中 它 仅 仅 被 用 于 传统 的 协同 过 滤 ， 但 是 通过 添 
加 表示 上 下 文 特征 的 合适 的 输入 结 点 ， 它 能 够 
很 容易 地 被 拓展 到 上 下 文敏 感 的 场景 中 。 这 种 W=([w,]=UV" 
方法 有 一 个 未 开发 的 潜能 是 把 低 秩 参数 化 应 用 学 习 U 和 WV 而 不 是 所 
在 协同 过 滤 的 深度 学 习 方 法 中 。 对 应 于 连续 的 ”图 8-5 神经 网 络 中 用 低 秩 参数 化 来 避免 过 拟 合 
神经 细胞 层 之 间 的 权重 ， 多 层 深度 神经 网 络 也 可 以 受益 于 66 和 抢 阵 的 低 秩 分 解 。 由 于 深度 
学 习 方法 中 普遍 存在 过 拟 合 问题 ， 所 以 这 个 方法 会 特别 有 用 。 


8. 5.3 基于 内 容 的 模型 


有 一 系列 的 机 器 学 习 模型 ， 比 如 支持 向 量 机 和 线性 回归 ， 被 用 在 上 下 文敏 感 的 推荐 系 
统 中 。 这 些 方法 可 以 看 作 是 基于 内 容 的 模型 的 泛 化 ， 因 为 它们 使 用 了 和 用 户 、 物 品 以 及 上 
下 文 相关 联 的 属性 。 回 想 一 下 ， 基 于 内 容 的 模型 仅仅 使 用 和 物品 关联 的 属性 。 然 而 ， 在 这 
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种 情况 下 ， 我 们 做 出 更 一 般 的 假设 ， 即 属性 可 以 和 任意 维度 相关 联 。 

在 大 多 数 情况 下 ， 在 特征 空间 中 ， 用 户 或 物品 被 表示 成 特征 空间 的 向 量 ， 评 分 对 应 着 
因 变 量 或 类 变量 。 最 早 的 方法 之 一 是 使 用 支持 向 量 机 [8 。 它 提出 了 一 个 餐馆 推荐 系统 ， 
其 中 使 用 了 附加 的 上 下 文 维度 ， 比 如 天 气 、 同 伴 和 时 间 。 每 个 物品 一 上 下 文 组 合 被 表示 为 
一 个 要 么 是 喜欢 要 么 是 不 喜欢 的 特征 向 量 。 构 建 一 个 支持 向 量 机 把 不 喜欢 的 物品 和 喜欢 的 
物品 分 隔 开 。 一 个 之 前 未 见 过 的 物品 一 上 下 文 组 合 如 果 落 在 支持 向 量 机 喜欢 的 那 一 边 时 ， 
它 将 会 被 推荐 。 可 以 把 这 种 模型 看 作 是 内 容 为 中 心 的 模型 的 一 个 直接 泛 化 ， 因 为 其 为 每 个 
用 户 分 别 构建 了 一 个 单独 的 模型 ， 而 且 模 型 的 预测 是 针对 每 个 用 户 的 。 此 外 ， 这 个 模型 中 
没有 使 用 用 户 的 属性 值 。 然 而 ， 从 原则 上 来 说 ， 构 建 一 个 在 全 部 用 户 上 做 预测 的 全 局 模型 
也 是 可 能 的 。 

[50] 中 讨论 了 这 种 模型 的 一 个 例子 ， 其 中 构建 了 一 个 单一 线性 回归 模型 用 来 预测 任 
意 的 用 户 一 物品 组 合 的 评分 。 这 种 情况 下 ， 用 户 的 属性 值 也 被 使 用 了 。 为 了 方便 讨论 ， 我 
们 假定 这 些 特征 被 当 作 离散 关键 词 的 频率 ， 尽 管 你 也 可 以 在 分 离 过 后 使 用 数值 属性 。 注 
意 ， 用 户 和 物品 的 特征 被 包含 在 用 户 或 者 物品 的 画像 中 。 

首先 ， 我 们 描述 一 个 简单 的 没有 使 用 任何 上 下 文 信息 的 线性 回归 模型 。 然 后 ， 我 们 将 
会 展现 如 何 使 用 上 下 文 来 拓展 这 个 模型 。 请 考虑 下 面 的 线性 回归 模型 ， 其 中 评估 分 数 r; 是 
一 个 用 户 特征 、 物 品 特征 和 Kronecker 向 量 积 特征 的 线性 函数 : 

ty =W ey tW: eg +W + OO) (8-15) 
EXE, Wi. WAWEKE KREIRA AE. Ain, RA EW KEM 
RRRA AB Ry 9 FF GE 8 EE eh RATAA i REE E HE Sd BP 
H), gA ATA mj 的 特征 向 量 〈 比 如 电影 题材 和 出 品 商 )， Gz) 表示 用 户 i 和 
物品 7 的 特征 向 量 的 Kronecker 乘积 。Kronecker 乘积 被 定义 为 用 户 i 和 物品 ;i 的 特征 值 之 
间 的 所 有 可 能 的 向 量 积 组 合 。 在 之 前 提 到 的 例子 中 ， 所 有 可 能 的 组 合 包括 性 别 - 题 材 、 种 
族 -题材 、 性 别 - 出 品 商 和 种 族 -出 品 商 。 对 于 一 个 特定 的 用 户 -物品 实例 来 说 ， 相 关 的 组 
合 可 能 是 男性 -喜剧 、 白 种 人 -= 喜剧、 男性 -索尼 或 者 白 种 人 -索尼 。 把 这 些 组 合 的 值 都 设 
为 1， 所 有 的 其 他 组 合 〈 比 如 女性 -喜剧 ) 的 值 都 设置 为 0。 这 种 情况 下 ， 所 有 的 特征 值 都 
是 二 元 的 , 但 也 可 以 把 对 应 值 一 对 的 频率 相 乘 来 得 到 任意 组 合 的 频率 。 例 如 ， 如 果 关 键 词 
“高 尔 夫 ” 在 一 个 用 户 画 像 中 出 现 2 次 ， 而 关键 词 “ 马 车 ”出 现 3 次 ,那么 对 应 的 关键 词 
对 出 现 次 数 就 是 2X3 二 6。 基 本 观点 就 是 依据 用 户 i 的 特征 、 物 品 j 的 特征 和 它们 之 间 的 
交互 作用 来 表示 一 个 用 户 一 物品 组 合 G, j) 的 评分 。 

为 了 创建 模型 并 学 习 系数 向 量 刺 ! 、 丽 ; 和 到 3 ， 已 观测 评分 被 用 作 训 练 集 。 交 互 系 数 能 
告诉 我 们 用 户 - 物 品 特征 的 不 同 组 合 是 如 何 影响 模型 的 。 用 户 特征 和 物品 特征 的 系数 告诉 
我 们 当前 用 户 和 当前 物品 的 偏差 。 为 了 从 已 观测 数据 来 评估 这 些 系数 以 及 学 习 模 型 ，[50] 
使 用 了 马尔 可 夫 链 蒙特 卡 洛 (MCMC) 方法 。 这 个 方法 是 基于 内 容 的 方法 的 线性 回归 模型 
的 泛 化 ， 创 造 了 附加 物品 特征 的 特定 用 户 模型 (可 参考 第 4 章 4.4.5 节 )。 这 里 ， 模 型 是 
在 所 有 的 用 户 和 物品 上 建立 的 ， 而 且 特 征 也 是 从 已 评分 的 用 户 一 物品 组 合 中 提取 出 来 的 。 
所 以 ， 这 种 方法 比 现 有 的 基于 内 容 的 模型 要 更 加 丰富 。 

通过 为 上 下 文 维度 引入 额外 的 特征 变量 ， 可 以 很 容易 地 将 该 方法 推广 到 上 下 文 场景 
中 [7'607] 。 作 为 一 个 特殊 例子 ， 考 虑 当时 间 被 当 作 一 种 上 下 文 变量 的 情况 ， 与 时 间 维 度 第 
个 可 能 的 值 相关 联 的 特征 变量 被 记 为 向 量 奢 。 和 时 间 关 联 的 特征 可 能 对 应 于 不 同 的 描述 ， 
比如 每 一 天 的 时 间 、 是 否 是 工作 日 、 季 节 ， 等 等 。 因 为 我 们 有 三 个 维度 ， 评 分 ri 的 下 标 
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也 有 三 个 不 同 值 。 在 这 里 ，i 代表 用 户 索 引 ，j 代表 物品 索引 ， 然 后 & 代表 时 间 维 度 的 索 
引 。 然 后 ， 评 分 预测 值 7 ijn 可 以 通过 一 个 特征 变量 和 交互 变量 的 线性 函数 来 计算 : 
fjr =Wi yi +W: eg +W eH HW e OED) HHW, + (2 OT) 
+Ws (OW) HW, OOF OT) 

Tw DARE. WSS RAW REN OO. APPR RE REF KL, 
尽管 交互 只 发 生 在 来 自 不 同 维度 〈 比 如 用 户 和 物品 ) 的 属性 之 间 。 类 似 于 公式 (8-13) 的 
模型 。 使 用 的 是 一 个 相似 的 梯度 下 降 法 。 

实际 上 ， 这 类 方法 可 以 和 任意 的 现成 的 机 器 学 习 模 型 结合 ， 而 不 仅仅 是 线性 回归 模 
型 。 总 体 方法 如 下 : 

1) 对 于 每 个 已 观测 值 的 rj ， 生 成 一 个 多 维 数据 记录 Xis， 其 中 记录 的 类 标签 的 值 
FET ijk o 

2) 生成 对 应 于 页 ， FB m. Mz, FOR, VOTAS BRER., hic LM 
表示 Xi 的 特征 向 量 。 

3) H Kirs r) 和 任意 现成 的 有 监督 学 习 算 法 相 结合 来 构建 模型 人 1。 

4) 对 评分 立方 体 中 的 任意 值 未 知 的 项 (ii ，7， 忆 )， 使 用 之 前 提 到 的 方法 提取 特征 
RRX: ) 而 且 用 机 器 学 习 的 模型 M 来 预测 评分 。 

随 着 上 下 文敏 感 的 推荐 系统 中 维度 的 增加 ， 这 个 模型 变 得 倾向 于 过 拟 合 。 而 且 ， 系 统 
的 可 拓展 性 也 受到 影响 。 对 于 这 样 的 系统 来 说 ， 这 是 一 个 很 严峻 的 挑战 ， 当 然 这 也 是 上 下 
文 模型 方法 的 一 个 普遍 缺点 ， 这 种 方法 直接 去 处 理 包 维 的 评分 矩阵 而 不 是 使 用 预 过 滤 或 者 
后 过 滤 将 其 降 维 成 二 维 的 问题 。 然 而 ， 如 果 有 足够 多 的 可 用 的 评分 数据 ， 那 么 直接 的 上 下 
文 建 模 更 倾向 于 提供 最 健壮 的 结果 。 这 样 的 方法 更 可 能 在 “大 数据 ”时 代 变 得 越 来 越 
重要 。 


8.6 小 结 


多 种 多 样 的 上 下 文 ， 比 如 位 置 、 时 间 和 社交 信息 对 于 推荐 的 过 程 有 着 显著 的 影响 。 多 
维 模 型 被 广泛 地 用 来 创建 一 个 适用 于 支持 多 种 类 型 的 上 下 文 感知 的 推荐 框架 。 上 下 文 感知 
的 推荐 有 三 种 主要 的 方法 。 预 过 滤 方 法 中 ， 是 在 应 用 协同 过 滤 算 法 之 前 ,把 w 维 的 数据 立 
方 体 过 滤 成 一 个 二 维 的 评分 矩阵 ， 从 而 把 问题 变 成 一 个 二 维 的 协同 过 滤 问 题 。 在 后 过 滤 方 
法 中 ， 在 协同 过 滤 的 第 一 阶段 ， 是 忽略 上 下 文 的 。 随 后 ， 使 用 一 个 能 够 调节 上 下 文 相关 重 
要 性 的 预测 模型 来 调整 结果 。 最 后 用 一 个 最 近 提 出 的 方法 将 上 下 文 直接 在 入 模型 中 ， 把 它 
变 成 一 个 多 维 的 预测 问题 。 和 矩阵 分 解 以 及 线性 回归 模型 的 泛 化 在 该 环境 中 被 提出 。 这 种 方 
法 是 计算 密集 型 的 ， 但 是 当 大 量 数据 可 用 时 ， 它 就 成 为 一 种 最 有 潜能 的 普遍 式 方法 。 


8.7。 相 关 工 作 


最 早期 的 关于 上 下 文 感知 的 推荐 系统 是 在 移动 应 用 的 上 下 文中 提出 的 2 3] ， 比 如 创建 
一 个 移动 的 上 下 文 感知 旅游 指导 。 有 关 移 动 系统 的 上 下 文 感知 计算 的 早期 研究 综述 请 看 
[147]。 最 近 的 基于 上 下 文 推荐 系统 的 综述 可 参考 [7]。 上 下 文 感知 系统 已 经 被 广泛 用 在 
多 个 领域 ， 例 如 新 闻 推 荐 039 、 网 站 搜索 [33 、 旅 游 推 荐 己 3 和 数据 库 查 询 [8] 。 一 个 有 关 
使 用 加 强 学 习 技 术 的 上 下 文 感知 推荐 系统 的 综述 可 参考 [612]. 

[6] 提出 了 多 维 推荐 系统 的 概念 。[466] 中 进行 了 有 趣 的 讨论 。[9] 提出 了 一 种 基于 
上 下 文系 统 的 查询 语言 ， 叫 作 推 荐 查询 语言 (RQL)。 另 外 一 种 最 新 的 查询 语言 是 应 用 在 
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个 性 化 推荐 系统 中 ， 被 称 为 REQUESTI， 

预 过滤 方 法 的 使 用 在 推荐 系统 中 有 着 丰富 的 历史 。 基 于 降 维 的 方法 [中 是 预 过 滤 的 一 项 
重大 技术 。 随 后 许多 方法 都 是 基于 这 种 已 经 被 广泛 使 用 的 方法 。[62」 中 的 研究 使 用 了 物 
品 切 分 的 概念 ， 其 中 一 个 单独 的 物品 通过 使 用 几 种 对 应 的 上 下 文 被 分 割 为 几 种 虚构 的 物 
品 。[61] 提出 了 微 画 像 的 概念 ， 其 中 每 个 画像 是 和 一 个 特定 的 上 下 文 相关 的 。 特 别 地 ， 
为 每 个 不 同 的 上 下 文 的 用 户 构 建 一 个 不 同 的 模型 。 这 种 方法 被 用 在 时 间 敏 感 的 推荐 系统 
H, 第 9 章 9.2.2.1 节 也 讨论 了 这 个 问题 。L61] 的 基本 观点 和 本 章 描述 的 基于 降 维 的 方 
法 是 类 似 的 。[L40] 讨论 了 一 个 使 用 预 过 滤 技术 的 移动 广告 推荐 系统 。[374] 讨论 了 这 种 
方法 在 在 线 零售 系统 的 一 个 应 用 。[471] 对 上 下 文 感知 系统 中 的 预 过 滤 和 后 过 滤 方 法 进行 
了 比较 。[L470] 展示 了 上 下 文 感知 系统 的 精确 性 和 多 样 性 的 结果 。[7，8] 则 讨论 了 基于 
近邻 的 方法 在 上 下 文 感知 系统 中 的 应 用 。 在 那些 时 间 被 当 作 一 个 离散 的 上 下 文 值 的 上 下 文 
推荐 系统 中 ， 许 多 和 矩阵 和 张 量 分 解 方 法 被 提出 [212'294,332,495,496] 。 分 解 机 的 概念 3 在 这 些 
环境 中 非常 流行 。 分 解 机 可 以 被 看 作 是 大 类 别 的 潜在 因子 模型 的 一 种 泛 化 ,已 经 发 现 , È 
们 在 上 下 文 感知 的 推荐 应 用 中 有 着 越 来 越 高 的 流行 度 。[L496」 讨论 了 分 解 机 中 一 种 可 选择 
的 最 小 二 乘法 。[151] 提出 了 一 种 相关 的 模型 ， 被 称 为 SVD 特征 。 

[458] 提出 了 用 来 进行 模型 构建 的 支持 向 量 机 方法 。 [63] 提出 了 用 于 上 下 文 感知 推 
荐 的 一 系列 矩阵 分 解 方法 ， 本 书 讨论 的 方法 和 那些 方法 相 比 更 具有 一 般 性 。[607] 讨论 了 
构建 上 下 文 感知 推荐 系统 的 可 扩展 算法 。 

一 个 主要 的 问题 就 是 为 上 下 文 方法 选择 合适 的 属性 。[L188」 讨 论 了 如 何 为 上 下 文 方法 
选择 合适 的 属性 。L47」 讨论 了 把 潜在 上 下 文 信息 作为 一 种 可 能 的 表示 。 


8.8 习题 


.对 于 一 个 特定 的 数据 集 ， 讨 论 你 将 如 何 决定 哪 种 方法 是 最 合适 的 ， 是 预 过 滤 、 后 过 滤 还 是 上 下 文 方法 。 
» 讨论 你 如 何 使 用 混合 推荐 系统 将 预 过 滤 、 后 过 滤 和 上 下 文 建 模 组 合 起 来 。 尽 可 能 多 地 提出 方案 。 如 何 
决定 应 该 使 用 哪 一 种 方案 ? 

实现 只 有 一 个 上 下 文 属 性 的 预 过 滤 算 法 。 用 一 个 基于 物品 〈 近 邻 ) 的 协同 过 滤 作 为 基础 方法 。 

. 假设 你 有 三 个 上 下 文 属性 (比如 位 置 、 时 间 和 同伴 )， 其 中 的 每 一 个 都 有 自己 的 分 类 。 你 的 系统 被 设计 
用 来 给 一 个 给 定位 置 、 时 间 和 同伴 的 用 户 来 推荐 物品 。 对 于 一 个 给 定 的 最 低层 级 别 的 上 下 文 ， 你 可 能 
会 遇 到 稀疏 问题 ， 因 为 只 有 一 个 不 多 的 《比如 500 个 ) 已 观测 评分 是 可 用 的 ， 这些 数据 的 三 个 上 下 文 
被 固定 为 查询 的 值 。 如 果 训 练 过 程 只 有 500 个 评分 可 用 ， 这 会 在 预 过 滤 方 法 中 导致 过 拟 合 。 为 了 提取 
相关 片段 并 增加 训练 数据 的 数量 ， 你 决定 为 这 三 个 上 下 文 使 用 更 高 的 级 别 。 描 述 如 何 为 每 个 上 下 文 属 
性 确定 要 使 用 的 分 类 的 级 别 。 一 旦 你 为 每 个 上 下 文 抽 取出 分 类 的 级 别 ， 描 述 具 体 的 协同 过 滤 算 法 。 
考虑 在 8. 5. 2 节 中 讨论 过 的 蔬 维 的 矩阵 分 解 ， 其 预测 函数 如 下 : 


Ping, = D>) RT Dy, 
achew 


a) 让 S EE w 维 数据 立方 体 中 的 特定 项 的 所 有 w 维 坐 标 集合 。 其 最 优化 问题 (包含 正则 项 ) 的 目标 
函数 如 下 所 示 : 


ka Re 


A w 


ou 


Jery (hae = Woe), aa 
DES axbew a=1 
b) 你 如 何 使 用 这 个 目标 函数 来 获取 梯度 下 降 方法 ? 
©) 让 e 一 ,一 和 表示 项 Gri) 在 中 间 阶段 梯度 下 降 更 新 中 的 预测 误差 。 证 明 对 每 个 U, (1 之 
aKu), PAREI Giu) ES 的 梯度 下 降 更 新 公式 如 下 ; 


Walig= Walie Hales wa, by >. [Us Jia =a = Mka Vq € {1k} 
ba 
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Pericles 


9. 1 引言 


在 许多 真实 的 场景 中 ， 用 户 的 购买 和 评分 行为 与 时 间 信 息 相关 。 例 如 ，Netflix Prize 
数据 集 的 评分 和 一 个 叫 作 “GradeDate” 的 变量 有 关 ， 它 最 终 展 示 了 [0 如何 通过 使 用 时 
间 组 件 来 改进 评分 预测 的 结果 。 同 样 ， 许 多 用 户 活 动 的 形式 ， 如 购买 行为 和 网 页 点 击 流 ， 
本 质 上 都 是 具有 时 间 性 的 。 一 般 来 说 ， 推 荐 系统 有 两 种 不 同 的 方式 来 使 用 用 户 活动 的 时 间 
信息 : 

D BARD: 在 此 情况 下 ， 日 期 与 显 式 评分 有 关 。 通 过 使 用 预测 方法 或 周期 性 和 季 
节 性 的 信息 (如 星期 几 )， 这 些 日 期 可 以 被 用 于 提高 预测 过 程 的 精确 性 。 

2) AR: 这 种 情况 下 的 反馈 对 应 于 用 户 的 行为 ， 如 购买 物品 或 者 点 击 网 页 。 使 
用 用 户 行为 的 历史 事件 序列 来 对 未 来 将 要 发 生 的 行为 进行 预测 。 底 层 方法 通常 与 基于 序列 
模式 的 预测 有 许多 相似 之 处 。 这 样 的 技术 通常 被 用 在 许多 诸如 网 页 点 击 流 或 者 网 页 日 志 
析 的 场景 中 。 同 时 这 些 技术 也 可 以 用 于 对 未 来 用 户 购 买 行为 进行 预测 。 

一 般 来 说 ， 在 评分 中 使 用 时 间 信 息 做 推荐 将 会 更 加 困难 。 正 如 我 们 稍 后 将 在 本 章 中 看 
到 的 ， 现 有 的 时 间 模 型 G1 中 以 有 限 的 和 仔细 校准 的 方式 在 评分 中 使 用 时 间 信 息 。 另 一 方 
面 ， 隐 式 反 馈 和 离散 模型 的 文献 相当 丰富 ， 因 为 它 已 经 在 网 页 点 击 流 与 日 志 的 上 下 文 分 析 
中 得 到 了 广泛 的 探索 。 之 后 的 问题 与 具有 分 类 属性 的 序列 数据 的 预测 密切 相关 。 在 这 种 情 
况 下 ， 离 散 数据 的 挖掘 方法 ， 如 马尔 可 夫 模 型 和 序列 模式 挖掘 会 非常 有 用 。 在 本 章 中 ， 我 
们 将 会 对 以 上 两 种 类 型 的 推荐 系统 展开 学 习 。 

可 以 从 新 近 的 、 可 预测 的 角度 来 看 待 时 间 ， 也 可 以 从 上 下 文 (如 季节 性 ) 的 角度 来 看 
待 时 间 。 从 新 近 的 角度 来 说 ， 基 本 思想 就 是 新 的 评分 比 过 去 的 评分 更 重要 。 因 此 ， 各 种 误 
老 策略 和 过 滤 策 略 将 会 给 新 的 数据 赋予 更 大 的 权重 。 从 上 下 文 的 角度 来 说 ， 会 使 用 各 种 周 
期 性 的 信息 ， 比 如 季节 或 月 份 。 

后 一 种 情况 与 上 下 文 感知 推荐 系统 密切 相关 。 在 上 下 文 感知 推荐 系统 中 [7] ， 一 个 如 位 
置 或 者 时 间 的 附加 变量 会 被 用 来 优化 推荐 。 在 用 户 集 U 和 物品 集 工 的 标准 协同 过 滤 中 ， 将 
UXT 中 用 户 一 物品 的 可 能 组 合 映射 到 评分 上 。 这 种 映射 关系 是 从 可 用 数据 中 学 习 得 到 的 。 
然而 ， 上 下 文 C 的 存在 要 求 我 们 学 习 从 UXIXC 到 评分 的 映射 。 需 要 注意 ， 上 下 文 C 本 
身 可 以 包含 多 个 属性 ， 例 如 位 置 、 时 间 、 和 天气、 季节， 等 等 。 这 些 属 性 可 以 彼此 依赖 或 独 
立 。 在 这 一 章 中 ， 我们 会 探讨 上 下 文 属性 是 时 间 这 一 单个 属性 的 具体 情况 。 当 时 间 被 看 作 
是 一 个 连续 的 变量 时 ， 推 荐 通常 是 作为 时 间 的 函数 来 创建 的 。 我 们 可 以 从 周期 性 、 新 近 性 
或 者 建 模 的 角度 来 看 待 时 间 上 下 文 。 当 上 下 文 是 周期 性 的 时 间 时 ， 比 如 工作 日 、 时 刻 或 者 
月 份 ， 可 以 用 特定 的 周期 时 间 点 做 出 更 精细 的 推荐 。 例 如 ， 北 美的 服装 零售 商 在 12 月 份 
推荐 冬季 服装 要 比 在 7 月 份 推荐 更 有 意义 。 第 8 章 对 上 下 文 感知 推荐 系统 进行 了 一 般 性 的 
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Wit. 但是， 由 于 大 量 的 文献 都 与 时 间 维 度 相关 ， 因 此 我 们 为 其 分 配 了 独立 的 一 章 。 此 
外 ， 许 多 诸如 基于 预测 的 评分 预测 与 离散 的 基于 序列 的 方法 并 不 能 轻易 地 被 泛 化 到 其 他 的 
上 下 文 感知 方法 和 场景 中 。 因 此 ， 虽 然 本 章 内 容 与 基于 上 下 文 方法 的 联系 紧密 ， 但 推荐 系 
统 时 间 方 面 的 问题 还 是 需要 从 上 下 文 感知 系统 中 被 分 离 出 来 做 单独 的 讨论 。 

通过 将 预测 评分 定义 为 时 间 的 函数 ， 时 间 可 以 被 看 作 是 模型 的 变量 。 可 以 数据 驱动 的 
方式 ,通过 最 小 化 预测 评分 和 已 观测 评分 的 平方 误差 .来 学 习 该 函数 的 参数 。 这 类 模型 的 
一 个 例子 是 time-SVD 十 十 ， 其 将 预测 评分 表示 成 一 个 时 间 参 数 偏差 和 因子 矩阵 的 函数 。 
这 种 方法 被 认为 是 目前 用 来 进行 时 间 预 测 的 最 先进 的 技术 之 一 。 该 方法 最 大 的 优点 是 可 以 捕 
提 未 来 的 发 展 趋势 ， 而 新 近 的 、 基 于 衰减 的 或 者 周期 性 模型 是 不 容易 捕捉 到 这 些 趋 势 的 。 

许多 数据 域 ， 如 网 页 点 击 流 ， 不 包含 明确 的 评分 , 但 是 却 包含 离散 的 动作 行为 序列 。 
这 样 的 数据 可 以 被 看 作 是 隐 式 反馈 数据 集 的 时 间 版 本 。 在 这 些 领域 中 使 用 的 方法 通常 与 那 
些 在 评分 中 使 用 的 方法 大 不 相同 。 特 别 地 ， 通 常会 使 用 马尔 可 夫 模 型 和 序列 模式 挖掘 的 方 
法 。 由 于 网 页 日 志 信息 在 数据 挖掘 中 可 以 被 广泛 获取 ， 所 以 这 些 方 法 已 经 在 网 页 挖掘 领域 
被 广泛 地 研究 。 在 本 章 ， 我 们 也 会 回顾 在 例如 网 页 点 击 流 等 应 用 中 的 用 于 推荐 的 离散 序列 
挖掘 方法 。 

像 时 间 一 样 ， 位 置 是 推荐 系统 中 另外 一 个 常用 的 上 下 文 信息 。 随 着 支持 GPS 定位 功 
能 的 移动 电话 越 来 越 受 欢迎 ， 位 置 上 下 文 信息 在 各 种 场景 中 变 得 有 用 起 来 ， 比 如 查找 电影 
院 、 和 餐馆 或 者 其 他 娱乐 场所 。 在 某 些 情况 下 ,位 置 上 下 文 可 以 与 时 间 相 结合 。 本 章 将 会 使 
用 基于 位 置 的 情景 来 作为 基于 上 下 文 的 推荐 系统 的 重要 示例 。 

本 章 的 结构 组 织 如 下 。 在 9.2 节 中 ,我 们 将 会 介绍 有 序 评分 的 时 间 协 同 过 滤 方 法 。 特 
别 会 介绍 三 种 不 同类 型 的 模型 。 它 们 分 别 对 应 为 基于 新 近 的 模型 、 周 期 模型 和 更 复杂 的 参 
数 化 模型 。 之 后 的 一 个 例子 是 time SVD 十 十 模型 ， 它 被 认为 是 时 间 推 荐 领域 中 最 先进 的 
模型 。 同 时 也 会 讨论 各 个 模型 和 第 8 章 中 所 提 到 的 基于 上 下 文 的 模型 的 联系 。9. 3 Wi A 
了 当 在 用 户 动 作 代表 离散 的 行为 ， 如 点 击 事件 下 ， 如 何 将 离散 的 模型 扩展 到 包含 时 间 的 场 
景 中 。 马 尔 可 夫 模 型 和 序列 模式 挖掘 方法 将 会 在 这 一 节 给 出 。 位 置 感知 推荐 系统 会 在 9. 4 
节 讨 论 。9. 5 节 为 本 章 小 结 。 


9.2 时 间 协 同 过 滤 

本 节 我 们 将 会 学 习 与 时 间 相 关 的 推荐 。 为 了 提高 预测 的 有 效 性 ， 可 以 用 两 种 方式 来 使 
用 时 间 信 息 : 

D 基于 新 近 的 模型 : 有 些 模型 认为 最 近 的 评分 比 以 往 的 评分 更 重要 。 在 这 些 情况 下 ， 
使 用 基于 窗口 的 和 基于 衰减 的 模型 会 达到 更 精准 的 预测 效果 。 这 些 模型 的 基本 思想 是 在 协 
同 过 滤 的 模型 中 对 最 近 的 评分 给 予 更 大 的 重要 性 。 

2) 周期 的 基于 上 下 文 的 模型 : 在 周期 的 基于 上 下 文 的 模型 中 ， 周 期 上 的 特定 属性 ， 
例如 时 间 在 不 同 级 别 ( 比 如 小 时 、 天 、 周 、 月 或 季节 ) 上 的 值 ， 被 用 于 提供 推荐 。 例 如 ， 
服装 零售 商会 根据 夏天 还 是 冬天 来 做 出 非常 不 同 的 建议 5567]。 同 样 ， 圣 诞 节 期 间 和 奥斯卡 
获奖 期 间 的 电影 推荐 内 容 可 能 会 很 不 一 样 0%]。 在 这 些 方 法 中 ， 时 间 是 为 了 做 出 推荐 而 被 
采用 的 一 个 上 下 文 变量 。 这 些 模型 和 第 8 章 所 介绍 的 上 下 文 推荐 系统 密切 相关 。 

3) 把 时 间 当 作 独 立 变 量 的 模型 : 最 近 的 一 种 被 称 为 time-SVD 十 十 的 方法 在 建 模 过 程 
中 把 时 间 当 作 一 个 独立 的 变量 来 使 用 。 这 种 方法 使 用 特定 用 户 和 特定 物品 上 更 精细 的 趋势 
来 处 理 局 部 时 间 的 变化 ， 并 且 它 还 能 够 对 评分 过 程 中 的 间 吹 性 时 间 品 声 做 出 解释 。 一 般 而 
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言 ， 这 些 模型 比 基 于 新 近 的 模型 更 复杂 ， 因 为 它们 包括 预测 的 要 素 。 

基于 窗口 和 基于 衰减 的 模型 在 各 种 环境 中 具有 简单 且 易 于 实现 的 优点 。 男 一 方面 ， 它 
们 无 法 捕获 由 time-SVD 十 十 所 捕获 的 精细 的 时 间 特 征 。 因 此 ， 后 一 种 方法 被 认为 是 时 间 
协同 过 滤 中 最 先进 的 技术 。 然 而 基于 新 近 的 模型 却 具 有 更 易 实现 的 优势 。 此 外 ， 更 为 广泛 
的 模型 可 以 泛 化 到 这 些 情 况 中 来 。 另 外 ， 目 前 第 二 类 的 模型 被 提出 的 数量 很 少 。 


9.2.1 基于 新 近 的 模型 


在 基于 新 近 的 模型 中 ， 最 新 的 评分 要 比 旧 的 评分 更 为 重要 。 可 以 通过 基于 衰减 的 方法 
或 基于 窗口 的 方法 为 新 近 的 评分 赋予 更 大 的 权重 。 在 基于 衰减 的 方法 中 ， 通 过 衰减 函数 使 
得 旧 的 评分 获得 了 更 少 的 权重 。 基 于 窗口 的 方法 可 以 视 为 基于 衰减 的 方法 的 特殊 情况 ， 其 
中 使 用 二 进 制 衰减 函数 来 完全 忽略 比特 定时 间 长 度 更 久 的 数据 点 。 换 句 话 说 ， 二 进 制 衰减 
函数 可 确保 较 旧 的 评分 权重 为 0， 而 最 近 的 评分 权重 为 1。 

9.2.1.1 基于 衰减 的 模型 

在 基于 衰减 的 方法 中 ， 时 间 惟 tj 会 与 mXn EER 中 用 户 和 物品 j 的 已 观测 评 
分 相关 联 。 因 此 ， 已 观测 的 tj 的 数量 和 在 R 中 已 观测 的 评分 数量 一 致 。 假 设 要 在 未 来 的 
某 一 时 间 tj 进行 推荐 ， 这 个 未 来 时 间 也 称 作 目标 时 间 。 那 么 ， 评 分 rw 的 权重 ww (tj) 在 目 
标 时 间 ti 上 使 用 衰减 函数 定义 ， 对 tw 和 tj 之 间 较 大 的 距离 进行 惩罚 。 通 常 使 用 的 衰减 函 
数 55] 是 一 个 指数 函数 : 

Wy (tf) = expl—ACty — ty ) J (9-1) 

衰减 率 ) 是 一 个 用 户 自 定义 的 参数 ， 用 于 调节 时 间 的 重要 性 。 较 大 的 4 值 会 在 更 大 程 
度 上 降低 旧 评 分 的 重要 性 。 这 些 权重 可 以 被 用 于 在 基于 近邻 的 方法 ， 来 调节 预测 阶段 评分 
的 重要 性 。 

[185] 中 提出 的 方法 通过 改变 最 终 预 测 函 数 来 修改 基于 用 户 的 近邻 方法 。 在 【185 ] 
中 使 用 的 简单 方法 是 首先 确定 每 个 用 户 的 & 近 邻 。 最 近邻 的 确定 与 现成 的 基于 用 户 的 近邻 
方法 完全 相同 。 之 后 ， 与 其 他 基于 近邻 的 方法 唯一 区 别 在 于 ， 其 他 用 户 的 评分 在 聚集 过 程 
中 使 用 ww (tj) 加 权 。 具 体 而 言 ， 第 2 章 的 公式 〈2-4) 现在 可 以 修改 为 如 下 ， 以 预测 在 时 
E te FAP u 的 物品 7 的 评分 : 
>) wy (tp) + Sim(u, v) » (ry — po) 
veP (i) 

X wy (tr) + |Sim(u, v) | 

v€P (3) 

在 这 里 ，P. (7 代表 距离 用 户 u 对 物品 j 的 评分 最 近 的 & 近邻 。 需 要 注意 ， 上 述 等 式 和 传 
统 的 协同 过 滤 最 本 质 的 区 别 在 于 预测 函数 中 存在 权重 。 这 些 权 重 通过 削弱 陈旧 的 评分 ， 使 
解决 方案 偏向 于 最 近 的 评分 趋势 。 

该 方法 在 最 后 一 步 进行 小 幅度 修改 后 就 可 以 很 简单 地 在 基于 用 户 和 基于 物品 的 模型 中 
应 用 。 在 这 两 种 情况 下 ， 最 终 的 预测 步骤 需要 用 基于 新 近 的 权重 来 加 强 。 可 以 使 用 交叉 验 
证 方法 学 习 4 的 最 优 值 ， 尽 管 这 种 方法 在 [185] 中 并 没有 被 讨论 。 

C186] 中 提供 了 一 个 略微 精细 的 模型 ， 其 中 使 用 基于 物品 的 近邻 方法 进行 协同 过 滤 。 
除了 在 预测 过 程 中 使 用 物品 一 物品 的 相似 度 对 每 个 物品 进行 加 权 之 外 ， 在 预测 函数 中 会 对 
每 个 物品 的 评分 乘 以 一 个 时 间 折 扣 系 数 。 当 然 这 和 [185] (上 面 也 讨论 过 ) 中 使 用 的 方法 
类 似 。 与 1185] 中 的 工作 不 同 的 是 ， 这 里 的 折扣 系数 不 是 一 个 简单 的 指数 衰减 函数 。 每 
个 物品 所 分 配 的 折扣 系数 是 通过 估计 每 个 物品 的 预期 未 来 错误 ， 然 后 分 配 与 该 错误 成 反比 


Fuj (tp) = pu + (9-2) 
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的 权重 而 得 到 的 。 
考虑 如 下 场景 ， 目 标 物品 7 的 用 户 已 经 给 出 评分 的 对 等 物品 集合 被 记 为 Qi (zx) 。 确 
E Qi (zx) 的 过 程 与 基于 物品 的 近邻 方法 的 过 程 相 同 。 接 下 来 ， 为 了 修改 最 终 预测 函数 ， 需 
要 确定 每 个 物品 i€ Qj (ww) 的 折扣 系数 Du 。 请 注意 ， 是 当前 用 户 “的 局 部 折扣 系数 ， 因 此 
在 下 标 中 包含 x。 用 户 刀 对 物品 j 的 评分 预测 采用 如 下 一 个 带 折扣 版 本 的 基于 物品 的 预测 
函数 来 计算 9 : 
>) SimG, j) + Du * ru 
iE Q (WwW 


>) |SimG, 7) |* Du 
EQ; u) 


如 何 计算 每 个 折扣 系数 Di; 呢 ? 这 是 通过 计算 在 物品 i€ Q; aO LAPS ru H u 在 
与 物品 i 相似 的 物品 上 的 平均 评分 Ow 的 归 一 化 差异 来 得 到 的 。 通 过 计算 物品 到 物品 的 相 
似 性 来 识别 与 物品 i 相似 的 物品 。 对 于 每 个 用 户 w 和 物品 iE€ Q; (ww) 的 折扣 系数 (权重 ) 
Da E (0，1) 的 计算 如 下 : 


(9-3) 


a — 
rý = 





Da = (1 Darel (9-4) 


Ymax — min 


这 里 的 rmax 和 rmin 是 评分 值 范围 中 的 最 大 值 和 最 小 值 。a 是 一 个 可 调 参 数 ， 可 以 通过 交叉 
验证 来 选择 。 这 里 的 基本 思想 是 ， 用 户 对 物品 i 的 评分 与 同一 用 户 对 类 似 物 品 的 平均 评分 
的 差异 是 由 时 间 演 变 引 起 的 错误 的 表现 。 此 外 ， 不 同 的 用 户 可 能 具有 不 同 的 进化 速度 ; A 
此 ， 折扣 系数 对 于 特定 用 户 来 说 是 局 部 的 。 

[185，186] 中 的 方法 在 相似 度 计算 中 不 会 嵌入 衰减 权重 和 折扣 因子 ， 并 且 这 些 权 重 
仅 在 预测 阶段 使 用 。 然 而 ， 如 第 6 章 6.5.2.1 节 所 述 ， 也 可 以 以 加 权 方 式 来 计算 相似 度 。 
实际 上 ， 一 且 定 义 了 wi (t)， 就 可 以 使 用 任意 的 加 权 模 型 。 虽 然 在 [67]」 中 这 些 加 权 模 型 
是 在 集成 方法 的 背景 下 被 提出 (如 bagging 法 和 boosting 法 )， 但 它们 也 可 以 很 容易 地 适 
用 于 时 间 场 景 。 注 意 ， 和 矩阵 分 解 模型 可 以 被 推广 到 加 权 形 式 的 方式 也 在 6. 5. 2. 1 节 中 提 
到 。 鉴 于 此 ， 和 矩阵 分 解 方 法 也 可 以 很 容易 地 推广 到 基于 新 近 的 技术 当中 。 

9.2. 1.2 基于 窗口 的 方法 

在 基于 窗口 的 方法 中 ， 比 某 个 特定 时 间 更 早 的 评分 被 过 滤 掉 。 这 种 方法 可 以 被 视 为 基 
于 上 下 文 的 模型 中 的 预 过 滤 或 后 过 滤 方 法 的 特殊 情况 。 第 8 章 从 一 般 意 义 上 对 这 些 方法 进 
行 了 讨论 。 此 外 ， 这 些 方法 也 可 以 被 看 作 是 基于 衰变 的 方法 的 (离散 的 ) 特殊 情况 。 有 几 
种 可 以 建 模 窗 口 的 方法 : 

1) 如 果 目 标 时 间 ty 和 评分 时 间 t;j 之 间 的 差异 大 于 特定 阅 值 ， 则 评分 将 下 降 。 协 同 过 
滤 模 型 与 第 2 章 和 第 3 章 中 讨论 的 任何 方法 相同 。 这 种 方法 可 以 看 作 是 基于 衰变 的 模型 的 
一 种 极端 情况 ， 其 中 衰减 函数 是 二 元 的 。[131] 建议 在 基于 近邻 的 方法 中 ， 所 有 的 评分 都 
应 该 被 用 于 相似 性 计算 。 在 使 用 所 有 数据 计算 相似 度 之 后 ， 仅 在 预测 函数 中 使 用 基于 窗口 
的 剪 校 。 由 于 评分 的 稀 玻 性 ， 其 中 任何 类 型 的 剪 枝 会 使 相似 度 计 算 变 得 不 稳定 ， 所 以 这 种 
方法 有 时 可 以 提供 更 好 的 健壮 性 。 在 相似 度 计算 时 剪 枝 可 能 会 导致 过 拟 合 。 

2) 在 某 些 情况 下 ， 根 据 潜 在 的 领域 ,可 以 对 各 种 物品 的 活跃 期 进行 一 些 洞察 。 在 这 
些 情况 下 ， 窗 口 是 基 于 特定 的 领域 和 物品 进行 设置 。 例 如 ，[131]」 中 的 方法 不 仅 使 用 最 近 


担 ” 原始 工作 中 中 不 使 用 分 母 中 的 绝对 值 。 我 们 在 公式 (9-3) 中 加 入 了 它 是 因为 在 负 相 似 中 省 略 它 没有 多 大 意 
义 。 然 而 ， 在 实际 设置 中 ， 因 为 对 等 物品 被 定义 为 最 相似 的 物品 ， 因 此 对 等 物品 组 中 的 负 相 似 性 是 很 军 见 的 。 
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的 评分 ， 还 使 用 了 前 几 年 同一 个 月 的 评分 。 因 此 ， 这 种 方法 将 基于 窗口 的 模型 与 一 些 周 期 
性 信息 相 结合 。 该 方法 被 称 为 时 间 周 期 偏 移 扩 NN 法 。 

到 目前 为 止 ， 所 有 的 时 间 模 型 都 是 基于 物品 被 评分 的 时 间 。 一 个 有 些 不 同 的 方法 是 将 
权重 与 不 同 的 时 间 属 性 相关 联 ， 而 不 是 评分 时 间 。 例 如 ,，[595] 中 的 工作 讨论 了 如 何 使 用 
电影 的 制作 时 间 将 其 从 考虑 中 删除 。 一 个 太 陈 旧 的 电影 可 能 与 寻找 更 多 近期 电影 的 用 户 无 
关 。 请 注意 ， 由 于 制作 时 间 是 与 物品 相关 联 ， 而 不 是 与 用 户 一 物品 组 合 关 联 ， 这 种 方法 会 
剪 掉 该 物品 的 所 有 评分 。 剪 掉 一 个 物品 的 所 有 评分 等 同 于 从 评分 矩阵 中 删除 该 物品 。 因 
此 ， 这 种 方法 通过 有 效 地 从 考虑 中 去 除 它们 来 降低 数据 集 的 维度 。 但 是 ， 应 谨慎 使 用 这 种 
方法 ， 它 只 适用 于 在 知名 特征 上 对 时 间 敏 感 的 物品 。 


9.2.2 处 理 周 期 性 上 下 文 


周期 性 上 下 文 旨 在 处 理 时 间 维 度 只 表示 特定 周期 的 时 间 ， 例 如 一 天 中 的 时 间 、 星 期 
几 、 季 节 或 特定 周期 性 事件 附近 的 时 间 间 隔 〈 例 如 ， 圣 诞 节 )。 如 [6] 中 提出 的 ， 这 种 情 
况 最 好 使 用 多 维 上 下 文 模型 来 处 理 。 这 些 方法 在 第 8 章 中 有 详细 的 讨论 ，。 

在 这 种 情况 下 ， 目 标 推荐 时 间 定义 了 产生 推荐 的 上 下 文 。 这 种 上 下 文 有 时 在 推荐 过 程 
中 起 到 非常 重要 的 作用 。 例 如 ， 对 于 一 个 超市 来 说 ， 感 恩 节 假期 之 前 的 周末 的 目标 推荐 与 
其 他 时 间 的 目标 推荐 是 非常 不 同 的 。 以 下 部 分 将 讨论 几 种 处 理 周期 性 上 下 文 的 自然 方法 。 

9.2.2.1 预 过 滤 和 后 过 滤 

在 基于 上 下 文 的 方法 中 有 两 种 类 型 的 过 滤 方 法 ， 分 别称 为 预 过 滤 和 后 过 滤 。 这 些 方法 
在 第 8 章 的 8. 3 节 和 8.4 节 中 有 详细 的 讨论 。 这 里 ， 我 们 在 时 间 推 荐 系统 的 上 下 文中 对 其 
进行 简要 的 概述 。 

在 预 过 滤 中 ， 在 实现 或 执行 推荐 时 很 大 一 部 分 与 特定 目标 时 间 〈 即 上 下 文 ) 无 关 的 评 
分 数据 会 被 移 除 。 例 如 ， 可 能 只 用 到 每 年 感恩 节 前 的 两 周 内 的 评分 数据 ， 以 便 在 感恩 节 之 
前 的 周末 建立 用 于 推荐 的 模型 。 这 个 方向 上 一 个 特别 有 趣 的 方法 是 使 用 上 下 文 微 画 像 [61]， 
它 根据 上 下 文 对 评分 进行 分 段 。 这 种 分 段 有 效 地 过 滤 掉 每 个 段 中 不 相关 的 评分 。 一 些 可 能 
的 分 段 方式 的 例子 包括 {早晨 ,傍晚 ;、{ 工 作 日 ， 周 末 }， 等 等 。 对 每 个 上 下 文 分 别 构建 
用 于 预测 的 模型 。 过 滤 后 ， 可 以 使 用 任何 非 上 下 文 的 方法 对 每 个 片段 中 的 已 剪 枝 的 数据 进 
行 预测 。 与 预 过 滤 方 法 有 关 的 主要 挑战 是 通过 剪 枝 的 数据 集 要 比 原始 数据 更 稀 玖 ， 因 此 推 
荐 过 程 的 精确 性 会 受到 负面 的 影响 。 这 会 直接 导致 过 拟 合 。 预 过 滤 的 成 功 通常 取决 于 前 枝 
数据 集 的 稀疏 性 。 因 此 ， 该 方法 不 能 轻易 地 用 于 过 于 精细 《例如 ， 一 年 中 的 一 天 ) 的 上 下 
文 。 在 许多 情况 下 ， 在 周期 性 上 下 文中 通过 使 用 层次 结构 来 提高 推荐 的 精确 性 。 例 如 ， 考 
虑 上 下 文 设 置 为 上 午 7 点 的 一 个 场景 。 可 能 会 使 用 上 午 6 点 到 9 点 之 间 收 到 的 所 有 评分 而 
不 是 使 用 上 午 7 点 到 上 午 8 点 收 到 的 评分 。 这 将 导致 使 用 更 多 的 评分 ， 因 此 这 种 方法 将 有 
助 于 防止 过 拟 合 的 发 生 。 

在 后 过 滤 中 ， 在 所 有 数据 上 使 用 了 非 上 下 文 的 方法 生成 推荐 之 后 ， 会 基于 上 下 文 来 调 
整 推荐 的 结果 。 因 此 ， 后 过 滤 的 基本 方法 采用 以 下 两 个 步骤 ， 

D 使 用 传统 的 协同 过 滤 方 法 为 所 有 数据 生成 推荐 ， 同 时 忽略 时 间 上 下 文 。 

2) 使 用 时 间 上 下 文 来 调整 生成 的 推荐 列表 。 可 能 是 调整 推荐 列表 的 顺序 ,或 者 前 枝 
掉 列表 中 与 上 下 文 无 关 的 物品 。 

在 形成 推荐 列表 之 后 ， 或 者 通过 上 下 文 相 关 权 重 对 列表 的 排序 进行 重新 调整 ,或 者 将 
具有 非常 低 的 上 下 文 相关 权重 的 物品 移 除 。 在 应 用 上 下 文 做 后 过 滤 之 前 ， 令 7 表示 在 全 
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部 数据 上 用 户 u 为 物品 7 的 预测 评分 。 然 后 使 用 上 下 文 相关 权重 Plu, 7，C) 来 调整 结果 评 
ay 〈 和 排名 )， 其 中 CREP. At, RWS ry + Plu, j, OM. 

上 下 文 相关 性 权重 是 如 何 确定 的 ? 与 只 使 用 评分 的 预 过 滤 法 相 比 ， 后 过 滤 法 通常 使 用 
物品 的 内 容 属 性 来 确定 上 下 文 相关 性 权重 。 在 确定 上 下 文 相关 性 权重 的 过 程 中 ， 后 过 滤 法 
有 时 会 将 预 过 滤 技 术 小 幅度 地 艇 入 进来 。 对 于 需要 预测 的 给 定 用 户 AR A 
时 间 段 的 评分 预 过 滤 出 来 ， 在 预 过 滤 后 的 评分 上 构建 现 有 的 推荐 模型 ， 然 后 对 特定 周期 上 
下 文 C 上 的 用 户 评分 做 出 预测 。 例 如 ， 如 果 要 在 周末 上 下 文中 进行 电影 推荐 ， 则 在 预 过 滤 
后 的 数据 上 使 用 协作 模型 或 基于 内 容 的 模型 来 确定 用 户 对 周末 每 个 电影 的 相关 性 。[471] 
中 使 用 非常 简单 的 模式 ， 在 预 过 滤 数 据 中 利用 观看 特定 电影 的 用 户 的 邻居 的 比例 来 计算 上 
下 文 相关 性 权重 。 相 关 性 权重 Plu, j, C0) 被 假设 或 缩放 ) 为 《0，1) 之 间 的 概率 ， 较 大 
的 值 意味 着 用 户 对 其 兴趣 更 大 。 然 后 ， 预 测评 分 rw 与 相关 性 权重 PCu, 7，C) 相 乘 ， 或 者 
当 Plu, j, C) 非 常 小 时 ， 该 物品 直接 从 推荐 列表 中 移 除 。 这 两 种 方法 在 上 下 文 后 过 滤 中 被 
称 为 加 权 法 或 过 滤 法 [0 。 后 过 滤 法 通过 同时 使 用 这 两 种 方法 在 推荐 过 程 中 来 保证 〈 大 量 
的 ) 全 局 数据 集 的 健壮 性 和 前 校 数 据 对 精确 性 的 提升 。 

在 许多 情况 下 ， 通 过 仅 使 用 物品 ; 中 的 内 容 信 息 ， 可 以 使 PC(u, j, C) 的 评估 独立 于 用 户 
u。 例 如 ， 如 果 所 有 用 户 经 常 在 周末 观看 喜剧 电影 和 Steven Spielberg 的 电影 ， 电 影 的 题材 / 演 
员 / 导 演 可 以 被 看 作 是 内 容 ， 而 标签 是 周末 或 工作 日 。 训 练 数据 可 以 包含 所 有 用 户 的 数据 ， 
而 不 仅仅 是 用 户 x。 然 后 ， 一 个 机 器 学 习 模 型 通过 使 用 该 训练 数据 来 估计 P(x a je OK 
值 ， 其 中 “* ”代表 “无 所 谓 ”。 这 种 方法 在 计算 Plu, 7，C) 时 不 够 个 性 化 ， 但 它 可 以 更 
有 效 地 处 理 稀 朴 问题 。 注 意 ， 依 据 7w 的 确定 方式 ， 最 终 预测 值 zw。P(C*，7，C) 仍 然 被 个 性 
化 为 针对 用 户 x。 用 于 估计 Pu, 7，C) 的 模型 的 具体 选择 取决 于 当前 的 数据 集 及 其 稀 下 程度 。 
建议 读者 参考 第 8 章 有 关 这 两 种 方法 的 更 多 详细 内 容 。 后 过 滤 法 在 8. 4 节 中 有 具体 讨论 。 

9.2.2.2 时 间 上 下 文 的 直接 并 入 

在 预 过 滤 和 后 过 滤 方 法 中 ， 上 下 文 的 并 人 是 在 严格 地 推荐 过 程 之 前 或 之 后 完成 的 。 在 
这 两 种 情况 下 ， 该 方法 将 问题 降 维 到 二 维 模型 上 。 然 而 ， 也 可 以 直接 修改 诸如 近邻 方法 的 
现 有 模型 ， 以 便 结合 时 间 上 下 文 。 在 这 种 情况 下 ， 可 以 直接 使 用 与 用 户 、 物 品 和 上 下 文 相 
对 应 的 三 维 表示 。 例 如 ， 在 基于 用 户 的 近邻 方案 中 ， 可 以 使 用 上 下 文 属性 来 修改 两 个 用 户 
之 间 的 距离 计算 。 如 果 两 个 用 户 在 周末 期 间 对 某 个 物品 给 出 了 相同 的 评分 ， 则 他 们 之 间 的 
相似 度 要 比 与 在 不 同时 间 上 下 文中 给 出 这 些 评分 的 一 对 用 户 高 。 通 过 使 用 已 修改 的 距离 计 
算 ， 上下文 会 自动 整合 到 推荐 过 程 中 。 人 们 还 可 以 直接 修改 回归 和 潜在 因子 模型 来 并 入 时 
间 上 下 文 。 这 些 方法 通常 适用 于 任何 基于 上 下 文 的 场景 例如， 位 置 )， 而 不 仅仅 是 时 间 
上 下 文 。 因 此 ， 在 第 8 章 中 详细 讨论 了 基于 上 下 文 的 方法 。 请 参阅 第 8 章 8. 5 节 。 


9.2.3 将 评分 建 模 为 时 间 的 函数 


在 这 些 方法 中 ,评分 被 建 模 为 时 间 函 数 ， 并 且 以 数据 依赖 的 方式 学 习 模型 的 参数 。 在 
9.6 节 讨 论 了 使 用 时 间 序 列 模型 进行 预测 的 几 种 方法 。 在 本 节 中 ， 我 们 将 研究 使 用 时 间 因 
子 模型 ， 这 被 认为 是 该 领域 最 先进 的 技术 。 这 些 方法 可 以 将 长 期 趋势 与 短暂 的 和 嗜 杂 的 趋 
势 进行 智能 分 离 。 此 外 ， 这 些 模 型 具有 内 置 的 预测 元 素 。 这 些 区 分 有 助 于 让 时 态 模 型 变 得 
健壮 。 这 种 健壮 性 是 无 法 通过 对 时 间 模 型 使 用 单纯 基于 衰减 的 或 过 滤 的 方法 来 实现 。 在 本 节 
中 ， 我 们 将 研究 time-SVD 十 十 模型 ， 在 该 领域 中 大 量 的 后 续 工 作 都 是 基于 此 来 实现 的 。 

9.2.3.1 time-SVD 十 十 模型 

time-SVD 十 十 模型 可 以 被 看 作 是 SVD 十 十 模型 的 时 间 增 强 版 本 。 建 议 读者 重新 阅读 第 3 
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章 3. 6. 4. 6 节 ， 因 为 本 节 的 讨论 依赖 于 前 面 的 内 容 。 我 们 还 会 在 这 里 简要 地 讨论 SVD+ + 
模型 ; 随 之 我 们 将 引入 与 第 3 章 中 略 有 不 同 的 符号 。 这 些 符号 与 模型 的 时 间 版 本 相关 。 

如 在 SVD 十 十 模型 的 情况 下 ， 可 以 不 失 一 般 性 地 假设 ,我 们 正在 使 用 一 个 评分 矩阵， 
其 中 训练 数据 的 所 有 评分 的 平均 值 为 0。 注意 ， 当 所 有 评分 的 均值 (由 jy Bem) 非 零 时 ， 
该 均值 可 以 从 所 有 元 素 中 被 减 去 ， 得 到 一 个 中 心 化 的 矩阵 ， 接 着 通过 在 这 个 中 心 化 的 矩阵 
上 执行 分 析 来 预测 相应 的 中 心 化 的 评分 。 之 后 ， 平 均值 可 以 被 加 回 到 评分 的 预测 值 上 。 

回想 一 下 ，3. 6. 4. 5 节 中 包含 偏差 的 因子 模型 ， 它 根据 用 户 偏 差 、 物 品 偏差 和 因子 算 
阵 来 表示 评分 矩阵 R 二 [rj jnxn。 用 这 些 变量 将 预测 评分 ;表示 为 如 下 : 


k 
ry = atp t Dus ° Ujs (9-5) 


s=1 

这 里 ，oi 是 用 户 i 的 偏差 变量 ，p; 是 物品 7 的 偏差 变量 , U 二 [us Imxes V= Loj laxe eK 
为 的 因子 和 矩阵。 Co; +p; ) 不 使 用 任何 个 性 化 的 评分 数据 ， 它 仅仅 依赖 于 评分 的 全 局 属 
性 。 直 观 地 ， 变 量 o 表示 用 户 i 对 所 有 物品 进行 高 度 评价 的 倾向 ， 而 变量 p; 表示 物品 7 
被 高 度 评价 的 倾向 。 例 如 ， 一 个 慷慨 和 乐观 的 用 户 可 能 会 有 很 大 的 正 o 值 ， 而 一 个 票房 
大 卖 的 电影 可 能 会 有 很 大 的 正 p; 值 。 在 3. 6.4.6 节 中 ， 通 过 为 每 个 用 户 - 物 品 对 添加 隐 式 
反馈 变量 了 二 [yy jnx#， 基 于 偏差 的 基本 模型 被 进一步 增强 。 这 些 变 量 对 每 个 因子 -物品 组 
合 的 倾向 进行 了 编码 从 而 对 隐 式 反馈 做 出 贡献 。 例 如 ， 如 果 |yi | 很 大 ， 那 就 意味 着 对 物 
品 i 的 评分 行为 包含 了 用 户 对 第 j 个 潜在 分 量 的 紧密 度 的 重要 信息 〈 不 管 评分 的 实际 值 可 
能 是 什么 )。 换 句 话 说 ,任何 已 对 物品 i 评分 的 用 户 的 第 j 个 潜在 分 量 都 应 该 根据 yy 的 值 
进行 调整 。 

让 I; 是 用 户 i 已 评分 的 物品 集 。 那么 ,包含 隐 式 反馈 的 评分 预测 值 可 以 表示 如 下 : 








k 
rz; = 0; ; ti. ahs © D3; > 
y + p; +2} p> ATT ) 2 (9 6) 
注意 ， 在 上 述 等 式 右边 的 >) 一 此 一 这 一 项 ， 基 于 隐 式 反馈 来 调整 用 户 i 的 第 ; 个 潜在 因 
hel, y Ii 


子 wu 。 对 此 更 详细 的 说 明 请 参考 第 3 章 3. 6.4.6 47. Ask (9- 6) 与 第 3 章 的 公式 (3-21) 等 
价 ， 只 是 为 了 将 偏差 变量 分 离 出 来 ， 这 里 的 符号 表示 略 有 不 同 9 。 
SVD 十 十 模型 与 time SVD 十 十 模型 的 主要 区 别 在 于 后 者 的 某 些 模 型 参数 被 假设 为 是 
时 间 的 函数 。 特 别 地 ，time-SVD 十 十 模型 假设 用 户 偏 差  、 物 品 偏差 p; 和 用 户 因子 wx 是 
时 间 的 函数 。 因 此 ， 这 些 项 将 被 表示 为 ot), pj OM w(t) 以 表示 它们 是 时 间 函 数 。 通 
过 使 用 这 些 时 间 变 量 ， 可 以 获得 如 下 随时 间 变 化 的 预测 值 7; (t)， 即 评分 矩阵 的 项 (i，j) 
在 时 刻 上 时 的 值 : 
k 
Py) = ot) + Pp) Nc 2) FE) vy (9-7) 
s=l1 


het, V |T; 
值得 注意 的 是 ,项 变量 w 和 隐 式 反馈 变量 yw 没有 被 时 间 参 数 化， 它们 被 假定 为 不 随时 间 
变化 。 但 原则 号 上 也 可 以 对 这 些 变量 进行 时 间 参 数 化 。time-SVD 十 十 模型 选择 了 一 种 简化 








Ə 在 3.6.4.6 节 的 讨论 中 ， 通 过 将 两 个 因子 矩阵 U 和 VV 的 列 数 从 & 增加 到 (kk 十 2)， 从 而 将 偏差 变量 吸收 进 了 因 
FREE U FV 内。 然而 在 这 里 ， 我 们 不 吸收 偏差 变量 。 这 是 因为 在 时 间 模 型 中 处 理 偏差 变量 的 方式 更 为 复杂 
和 特殊 。 例 如 ， 第 3 章 的 公式 (3-21) 和 公式 (9- 6) 是 相同 的 ， 但 它们 使 用 了 不 同 的 符号 。 在 头脑 中 记 住 这 
些 标志 性 区 别 以 避免 混淆 是 很 重要 的 。 

© [293] 的 工作 使 用 了 随时 间 变 化 的 物品 因子 。 
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的 方法 ,， 其 中 每 个 时 间 参 数 化 过 程 可 以 使 用 一 些 启发 式 参数 来 进行 调整 。 下 面 讨论 这 些 启 
发 式 方法 以 及 变量 o), p OM us (t) 各 自 时 间 参 数 化 的 具体 形式 : 

D 选择 物品 偏差 p; (t) 的 时 间 形 式 的 启发 式 是 物品 的 受 欢迎 程度 会 随 着 时 间 而 发 生 显 
著 变化 ， 但 是 它 在 短期 内 却 显示 出 高 水 平 的 连续 性 和 稳定 性 。 例 如 ， 票 房 大 卖 将 在 电影 上 
映 后 的 短 时 间 内 获得 大 致 稳定 的 评分 分 布 ， 但 在 经 过 两 年 后 可 能 会 有 很 不 同 的 评分 结果 。 
因此 ， 时 间 的 范围 可 以 被 分 成 相同 尺寸 的 容器 ， 属 于 相同 特定 容器 的 评分 具有 相同 的 偏 
差 。 较 小 容器 会 产生 更 好 的 粒度 ， 但 因为 每 个 容器 中 可 能 评分 不 够 ， 因 此 也 可 能 导致 过 拟 
合 。 在 Netflix 电影 评分 [101 的 原始 工作 中 ， 共 使 用 了 30 个 容器 ， 每 个 容器 表示 了 连续 10 
周 的 评分 。 物 品 偏差 刻 (C) 现 在 可 以 分 为 特定 容 顺 的 常数 项 加 偏 移 参数 两 部 分 ， 它 取决 于 
物品 7 被 评分 的 时 间 上: 

p(t) = Cj + Offset;, pincer (9-8) 
请 注意 ， 常 数 部 分 C; 和 偏 移 量 都 是 需要 以 数据 驱动 方式 学 习 的 参数 。 这 个 学 习 过 程 的 优化 
问题 将 在 后 面 讨论 。 还 要 注意 对 于 不 同 的 评分 ， 方 9 的 值 将 不 同 ， 上 有 具体 取决 于 评分 的 时 间 。 
与 用 户 不 同 ， 物 品 可 以 更 成 功 地 使 用 这 种 容器 方式 ， 因 为 大 多 数 物品 通常 具有 足够 的 评分 。 

2) 另 一 种 不 同 的 方法 被 用 来 参数 化 用 户 偏差 oi(z) 。 分 容器 法 对 用 户 是 无 效 的 ， 因 为 
人 因此 ， 可 以 使 用 一 个 函数 形式 来 参数 化 用 户 偏 差 ， 其 可 以 捕获 
用 户 随 时 间 的 漂移 。 令 vi 代表 用 户 i 所 有 评分 的 平均 日 期 。 然 后 ， 用 户 i 在 时 间 z 的 漂移 
偏差 dak area te ， t 的 函数 来 进行 如 下 计算 : 

dev; (t) = sign(t—y)» |t— nvi |£ (9-9) 
使 用 交叉 验证 来 选择 参数 8，B 的 值 一 般 取 0.4 A. BAr AR ei ARREA t A AYE 
态 噪 声 。 然 后 ， 用 户 偏差 0;(2) 被 分 为 常数 部 分 、 时 间 依 赖 部 分 和 瞬 态 噪声 部 分 ， 如 下 所 示 : 
oi (t) = K; +a: À devi (t) + eù (9-10) 
在 实际 中 ， 时 间 和 常常 基于 特定 日 期 偏差 的 离散 量 。 因 此 ，ez 对 应 于 瞬 态 特定 日 期 的 变量 。 
如 物品 偏差 参数 的 情况 ， 必 须 以 数据 驱动 的 方式 学 习 参 数 K;、a; 和 cx。 其 想法 是 ， 用 户 
的 平均 评分 可 能 会 随 着 评分 的 平均 日 期 有 明显 变化 。 用 户 现在 可 能 会 对 大 部 分 物品 进行 积 
极 评估 (或 消极 评估 )， 但 是 她 的 平均 评分 可 能 会 在 几 年 内 下 降 (或 增加 )。 变 化 性 的 这 一 
部 分 会 被 a;:，devi(?) 捕 获 到 。 然 而 ， 短暂 的 情绪 变化 可 能 会 导致 评分 出 现 突 发 和 不 可 预测 
的 上 升 或 下 降 。 当 用 户 遇 到 糟糕 的 一 天 时 ， 可 能 会 对 所 有 物品 进行 很 差 的 评分 。ei 会 捕获 
这 种 变化 。 

3) 用 户 因 子 u (2?) 对 应 于 用 户 对 各 种 概念 的 喜好 度 。 例 如 ,今天 喜欢 看 动作 电影 的 一 个 
年 轻 用 户 可 能 会 在 几 年 后 对 纪录 片 感 兴趣 。 在 用 户 偏差 的 情况 下 ， 已 经 过 的 时 间 量 是 决定 漂 
移 量 的 关键 因素 。 因 此 ， 使 用 与 用 户 偏差 的 类 似 方法 对 用 户 因素 的 时 间 变 化 进行 建 模 ， 

ui (t) = Kis a * devi (t) + ey (9-11) 
类 似 用 户 偏差 的 情况 ， 分 别 由 常数 影响 、 长 期 影响 和 瞬 态 影响 建 模 。 虽 然 我 们 使 用 类 似 的 
符号 作为 用 户 偏差 ， 来 强调 两 个 建 模 案例 之 间 的 相似 性 ， 但 我 们 为 每 个 变量 添加 了 一 个 撤 
号 上 标 ， 以 强调 公式 (9-10) 和 公式 (9-11) 中 的 变量 是 不 同 的 。 注 意 ， 在 两 种 情况 下 使 
用 了 相同 的 特定 用 户 的 偏差 函数 devi(2) ， 不 过 这 两 种 情况 可 以 使 用 不 同形 式 的 函数 。 
那么 如 何 使 用 上 述 模型 来 建立 优化 问题 呢 ? 我 们 假设 所 有 评分 的 时 间 是 已 知 的 。 因 此 ， 
对 于 在 时 间 芒 观 测 到 的 评分 项 (z，7) ， 需 要 将 观测 值 ri 与 预测 值 六 Cog ) 进 行 比较 ， 以 便 计算 
误差 。 在 这 种 情况 下 ， 需 要 最 小 化 所 有 已 观测 评分 上 的 平方 误差 函数 [ri; 一 Fy Ct). AT 
借助 于 公式 (9-7) FH ry (ti ) 的 值 。 此 外 ,需要 将 各 个 参数 的 平方 正则 化 项 添加 到 目标 函 
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SP. RA. MRS 包含 在 矩阵 RR 三 Lrj jmxn 中 已 指定 评分 的 用 户 一 物品 对 集合 ， 则 
必须 解决 以 下 优化 问题 : 
Minimize J = Dy [ry — Fa (Oy PHA» CEM) 
i» DE 

正则 项 包含 模型 中 所 有 变量 的 平方 和 。 与 第 3 章 讨论 的 所 有 因子 分 解 模 型 一 样 ， 可 以 使 用 梯 
度 下 降 法 来 优化 目标 函数 J 并 学 习 相 关 的 参数 。 对 于 每 个 参数 ， 计 算 本 的 偏 导数 以 确定 相应 
的 梯度 方向 。 然 后 将 这 些 学 习 到 的 参数 用 于 预测 。 这 些 学 习 步 又 的 细节 被 省 略 。 读 者 参考 
[310] 的 原始 工作 以 了 解 更 多 细节 。 在 这 里 ， 我 们 将 讨论 如 何在 参数 学 习 之 后 使 用 该 模型 。 

使 用 模型 预测 

在 学 习 了 模型 参数 之 后 ， 如 何 将 它们 用 于 预测 呢 ? 对 于 给 定 的 用 户 i 和 物品 ;?， 可 以 使 
用 公式 〈9-7)， 通 过 将 参数 蔡 换 成 学 习 到 的 参数 值 ， 来 确定 在 未 来 时 间 上 的 预测 评分 ry (2)。 
这 样 做 的 主要 问题 是 特定 日 期 的 参数 ， 如 ex 和 ew。 这 些 参 数 只 能 从 过 去 的 日 期 中 学 习 ， 
而 不 能 从 未 来 的 日 期 中 学 习 。 然 而 ， 这 些 参 数 仅 对 应 于 瞬 态 噪声 ， 根 据 定义 ， 其 并 不 能 以 
数据 驱动 的 方式 来 学 习 。 因 此 ， 在 进行 无 噪声 预测 的 假设 下 ， 这 些 参数 的 值 在 未 来 的 时 间 
上 会 被 设置 为 0; 相应 地 ， 学 到 的 这 些 参 数值 不 能 被 用 于 最 终 的 预测 。 虽 然 这 些 参 数 没 有 
被 用 在 最 终 预 测 中 ， 但 是 由 于 它们 吸收 了 瞬 态 噪 声 和 评分 峰值 ， 因 此 它们 对 建 模 过 程 仍然 
非常 重要 。 例 如 ， 如 果 某 用 户 碰 到 了 精 糕 的 一 天 ， 因 此 为 所 有 物品 打出 了 非常 低 的 评分 ， 
那么 这 些 参数 的 存在 将 会 抑制 历史 数据 中 的 这 种 瞬 态 噪声 所 带 来 的 影响 。 因 此 ， 参 数 ez 和 
ea 可 以 消除 瞬 态 峰值 和 噪声 ， 以 一 种 更 健壮 的 方式 帮助 其 他 参数 的 学 习 。 换 句 话 说， 特定 
日 期 的 参数 ex 和 eat 在 建 模 过 程 中 起 到 了 清理 训练 数据 的 作用 。 

实际 的 问题 

一 个 直接 感受 是 ,与 第 3 章 中 提 到 的 模型 相 比 ， 上 述 模 型 具有 非常 大 量 的 参数 。 因 
此 ， 有 足够 的 数据 至 关 重 要 ， 这 样 才 能 避免 过 拟 合 问题 。 这 对 于 小 数据 集 可 能 会 是 一 个 问 
题 。 然 而 ， 对 于 Netflix 这 样 的 大 型 数据 集 来 说 ， 这 种 方法 似乎 表现 得 相当 好 (3 中。 有 趣 
的 是 ，[L312] 的 综述 显示 ， 通 过 完全 放弃 因子 分 解 而 仅 使 用 偏差 项 ， 可 以 在 Netflix Prize 
数据 集 上 获得 相当 不 错 的 结果 。 仅 使 用 偏差 项 产生 的 结果 几乎 与 Netflix 的 Cinematch Hë 
荐 系统 相当 。 这 是 因为 评分 的 非 个 性 化 方面 (如 特定 用 户 的 和 特定 物品 的 偏差 ) 可 以 解释 
评分 的 很 大 一 部 分 。 这 些 结 果 表 明 ， 在 潜在 因子 模型 中 融 人 偏差 项 的 重要 性 ， 正 如 第 3 章 
3.6.4.5 节 所 述 。 

此 外 ，oi(z) 和 wi (z) 中 的 时 间 依 赖 项 可 以 使 用 其 他 函数 形式 (如 样 条 函数 或 周期 性 趋 
势 函 数 ) 进行 建 模 。 这 些 不 同 的 函数 形式 可 以 捕获 不 同 的 特定 数据 的 时 间 场 景 。 为 了 方便 
讨论 ， 我们 仅 在 最 简单 的 可 能 的 选择 上 进行 讨论 。[312] 对 这 些 蔡 代 方 案 提 供 了 详细 介绍 。 

观察 

值得 注意 的 是 ， 用 户 因 子 会 随时 间 发 生变 化 ， 物 品 因子 并 不 会 。 这 样 的 选择 是 合理 
的 。 回 顾 第 3 章 的 讨论 ， 用 户 因子 对 应 于 用 户 对 各 种 概念 的 密切 度 ， 而 物品 因子 对 应 于 物 
品 对 各 种 概念 的 密切 度 。 这 里 的 基本 思想 是 用 户 的 心情 和 偏好 会 随 着 时 间 的 推移 而 改变 ， 
这 将 反映 在 用 户 对 各 种 概念 的 密切 度 的 变化 中 。 男 一 方面 ， 物 品 对 概念 的 密切 度 对 于 该 物 
品 是 固有 的 ， 并 且 可 以 假定 不 随时 间 变 化 。 因 此 ， 不 需要 通过 时 间 参 数 化 物品 因子 来 增加 
模型 的 复杂 度 。 不 必要 的 时 间 参 数 化 会 增加 模型 的 复杂 性 并 导致 过 拟 合 。 然 而 ，[293] 的 
工作 显示 了 如 何 使 用 随时 间 变 化 的 物品 因子 。 关 于 对 物品 偏差 进行 时 间 参 数 化 是 否 会 导致 
在 大 多 数 数据 集 上 精确 性 的 总 体 提高 是 一 个 开放 的 问题 。 
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9.3 离散 时 间 模 型 


离散 时 间 模 型 与 底层 数据 以 离散 序列 的 形式 被 接收 的 情况 相关 。 这 种 数据 可 以 在 各 种 
应 用 场景 中 遇 到 ， 其 中 大 部 分 与 隐 式 用 户 反 馈 相 关 ， 而 不 是 明确 的 评分 情况 。 这 种 应 用 场 
景 的 一 些 示 例如 下 : 

1) 网 页 日 志和 点 击 流 : 用 户 对 网 页 日 志 的 访问 通常 可 以 表示 为 序列 模式 。 用 户 模 式 
通常 展示 了 可 预测 的 访问 模式 。 例 如 ， 用 户 会 经 常 访问 特定 的 网 页 序列 。 经 常 性 的 序列 信 
息 可 用 于 推荐 [82'208,440,442,443,562] 

2) 超市 交易 : 客户 在 超市 的 购买 行为 是 一 种 序列 化 数据 。 事 实 上 ， 序 列 模式 挖掘 问 
题 ] 被 用 来 处 理 这 种 情况 。 事 实 上 ， 由 于 活动 时 间 稚 通常 可 在 超市 数据 集 里 获得 ， 因 此 
可 以 将 其 转换 为 特定 用 户 的 购买 行为 的 序列 模式 。 时 间 顺 序 通常 是 相当 重要 的 。 例 如 ,在 
用 户 购买 打印 机 后 推荐 购买 打印 机 墨盒 是 很 有 意义 的 ， 但 反之 亦 然 。 

3) 查询 推荐 : 许多 网 站 在 其 站 点 上 记录 用 户 的 查询 。 查 询 的 序列 可 用 于 为 其 他 更 有 
用 的 查询 进行 推荐 。 

在 本 节 中 ， 我 们 将 讨论 两 种 模型 。 第 一 种 是 基于 马尔 可 夫 模 型 ， 而 第 二 种 是 基于 序列 
模式 挖掘 。 


9.3.1 马尔 可 夫 模 型 


[182] 提出 了 一 种 有 趣 的 马尔 可 夫 模 型 来 预测 对 网 页 的 访问 。 虽 然 在 网 页 访问 的 上 下 
文中 讨论 了 这 种 方法 ， 但 是 只 要 用 户 操 作 的 时 间 顺 序 可 以 获得 ， 这 种 方法 就 能 被 泛 化 到 推 
荐 任何 类 型 的 操作 。 本 节 的 内 容 是 基于 这 项 工作 的 0821。 

在 马尔 可 夫 模 型 中 ， 为 了 预测 ， 序 列 信息 被 编码 成 状态 的 形式 。A& 阶 马尔 可 夫 模 型 基 
于 用 户 执行 的 最 后 & 个 动作 来 定义 一 个 状态 。 动 作 是 基于 特定 的 应 用 被 定义 。 它 可 能 对 应 
于 用 户 访问 某 特定 网 页 ， 或 者 对 应 于 用 户 购 买 某 特定 物品 。 动 作 由 一 组 符号 集 KRM. 
由 于 动作 是 基于 特定 应 用 的 ， 所 以 符号 集 王 也 是 针对 特定 应 用 的 。 例 如 ， 符 号 集 王 可 以 对 
应 于 电子 商务 应 用 中 的 物品 域 的 索引 ， 或 者 对 应 于 网 页 日 志 挖掘 应 用 中 的 网 页 的 URL. 
我 们 假设 符号 集 卫 为 3 二 fol…alzl }。 因 此 ， 状 态 Q=ai…ax 由 大 个 动作 序列 定义 ， 这 样 每 
个 a; 可 以 从 驻 中 得 出 。 具 有 上 个 动作 的 状态 是 从 一 个 & 阶 马尔 可 夫 模 型 中 得 出 的 。 例 如 ， 考 
虑 三 中 的 符号 对 应 于 观看 各 种 电影 的 动作 的 情况 。 进 一 步 地 ， 考 虑 以 下 状态 Q: 

Q = Julius Caesar, Nero, Gladiator 
该 状态 具有 三 个 不 同 的 动作 ， 对 应 了 用 户 以 特定 顺序 观看 这 些 电影 。 因 此 ， 这 个 状态 可 以 
从 一 个 3 阶 马尔 可 夫 模 型 中 得 出 。 此 外 ， 这 种 马尔 可 夫 模 型 中 的 默认 假设 是 电影 被 连续 地 
观看 。 在 k 阶 马尔 可 夫 模 型 中 总 共存 在 |3|* 种 可 能 的 状态 ， 尽 管 其 中 许多 状态 可 能 不 会 
在 特定 数据 集中 频繁 出 现 。 

一 般 来 说 ， 一 个 序列 定义 了 马尔 可 夫 链 中 的 转换 3 。 在 一 个 & 阶 模型 中 ， 当 前 状态 是 
由 马尔 可 夫 链 中 的 最 后 & 个 动作 定义 。 考 虑 一 个 动作 序列 〈 例 如 网 页 访问 )， 到 目前 为 目 
已 经 发 生 t 个 动作 aiay…a,， 其 中 ai:E3。 那 么 ， 在 t 时 刻 的 & 阶 马尔 可 夫 模 型 的 当前 状态 
为 aktile ao 在 这 个 序列 中 的 最 后 一 个 动作 是 a,， 这 会 导致 状态 从 arpa 
ai-1 转 变 到 artiara a 因此 ， 马 尔 可 夫 链 中 的 状态 通过 边 相 连 ， 对 应 于 转换 。 每 


加 ”请 参阅 马尔 可 夫 链 的 相关 工作 。 
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条 边 都 被 注 上 一 个 从 三 中 提取 的 动作 和 一 个 转换 概率 。 在 这 个 特例 中 ， 从 状态 arar 
"a ARA At—k+1 Ar—k+2 °°" Ot 的 转换 与 动作 a, 相关 。 A B 
由 于 对 每 一 个 状态 ( 共 |3|* 种 状态 ) 都 有 |3| 种 可 能 的 (VY v») 


转换 ， 因 此 & 阶 完整 马尔 可 夫 模 型 中 边 的 总 数 等 于 B 

| 了 | 好 1。 一 个 大 阶 马尔 可 夫 链 状态 artiara 中 即 a=) 
将 接 人 的 边 总 是 用 最 后 一 个 动作 a 来 注释 。 一 个 状态 的 转 
换 概率 之 和 总 是 1。 可 以 从 训练 数据 (例如 ， 先 前 网 页 访 
问 的 序列 ) 中 学 到 转换 概率 。 我 们 已 经 展示 了 如 图 9- 1 中 
在 字母 表 (A, B, C, D) 上 绘制 的 1 阶 马 尔 可 夫 链 。 注 
意 ,该 马尔 可 夫 链 具有 4 个 状态 和 4X4==16 Fi. DHE 


序列 AABCBCA 对 应 于 马尔 可 夫 链 中 的 以 下 状态 路 径 : 
A=>A=>B>C=>B>C>A (0 )}— ec) 
注意 一 个 2 阶 的 马尔 可 夫 模 型 将 会 包含 42=16 个 状态 和 C 
Soe 











P=64 条 边 。 这 已 经 很 难 像 图 9-1 那样 以 简洁 的 图 表 来 
展示 了 。 动 作 序列 AABCBCA 对 应 的 状态 转换 序列 如 下 
所 示 : 


D 
图 9-1 一 个 1 阶 马 尔 可 夫 模 型 


AA>AB>BC>CB>BC>CA 

考虑 这 样 一 种 情况 ， 我 们 已 经 训练 好 了 一 个 阶 马尔 可 夫 模 型 ， 现 在 需要 预测 动作 序列 a 
…ai 之 后 的 下 一 个 动作 。 然 后 ， 对 于 每 个 动作 o; E55， 我 们 需要 估计 oi 的 值 ， 其 中 最 后 
个 动作 的 当前 状态 已 知 。 换 言 之 ， 我 们 需要 为 每 个 wE 了 估计 出 概率 已 Ca So | aret 
aiH2a)。 最 大 概率 的 前 ”个 动作 可 以 当 作 预测 值 返 回 。 注 意 Play =a; | apy) 
aata) 需要 从 训练 数据 中 估计 得 到 。 建 议 用 如 下 的 简单 方法 对 阶 马尔 可 夫 模 型 进 
行 训练 和 预测 。 

D (训练 阶段 〉 令 S 为 长 度 为 的 |5|* 个 可 能 序列 的 集合 。 对 于 每 个 可 能 的 序列 ( 状 
AS) SES, 使 用 训练 数据 来 学 习 |3| 种 概率 ， 即 对 于 每 个 候选 动作 o CS 的 概率 P Co; | 
S) 。 注 意 ， 需 要 学 习 的 概率 总 共 为 | 了 引 针 1 个 ， 即 不 阶 马 尔 可 夫 模 型 中 的 边 数 。 每 个 学 习 
到 的 概率 对 应 于 马尔 可 夫 模 型 中 每 条 边 的 转换 概率 。 

2) (预测 阶段 ， 对 于 用 户 动作 的 当前 序列 ,使 用 用 户 的 最 后 个 动作 确定 马尔 可 夫 链 
中 的 相关 状态 S,。 返 回 5 中 其 转换 概率 值 PCo; | S,) 最 大 的 前 7 个 动作 作为 推荐 结果 。 

马尔 可 夫 方 法 依赖 于 用 户 动 作 序 列 的 短 记 忆 假 设 。 想 法 是 ， 用 户 的 动作 只 取决 于 紧 接 
着 的 前 个 动作 的 集合 。 虽 然 这 种 假设 在 实践 中 可 能 不 是 完全 正确 的 ， 但 它 常 常 接近 许多 
现实 世界 的 场景 。 

仍然 要 解释 一 下 如 何 从 给 定 的 训练 数据 集中 估计 概率 。 这 可 以 通过 从 训练 数据 库 中 抽 
取 所 有 的 序列 ， 并 确定 在 这 个 序列 之 后 每 个 动作 oi 发 生 的 次 数 的 比例 。 该 估计 被 确定 为 
相关 概率 。 考 虑 一 个 序列 S, 它 是 |5|* 个 可 能 的 序列 之 一 。 如 果 该 序列 在 训练 数据 中 出 
现 F(S) 次 ， 并且 在 序列 S 之 后 是 在 数据 中 总 共 出 现 f(S， 6 FCS) KALE ois BAIT 
概率 Ploi | S) 如 下 所 示 : 

FeSi) 

F(S) 
注意 ， 训 练 数据 可 能 包含 一 个 长 序列 或 多 个 序列 。 在 任 一 情况 下 ， 频率 f(S， 0) Ml FCS) 
都 是 通过 对 单个 序列 上 其 目标 序列 重复 出 现 的 次 数 进行 计数 得 到 的 。 


Plo; | S) = (9-12) 
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当 F(CS) 值 较 小 时 ， 这 种 估计 有 时 会 比较 困难 。 实 际 上 ， 当 FCS) OY. fT 
率 变 得 不 确定 。 为 了 解决 这 个 问题 ， 我 们 使 用 拉 普 拉 斯 平滑 。 使 用 拉 普 拉 斯 平滑 参数 a 修 
改 上 述 估 计 如 下 : 
fS, oi) Fa 
F(S)+ |5|- a 
通常 将 a 的 值 设 定 为 一 个 较 小 的 量 。 注 意 ， 当 F(S) 值 为 0 时， 每 个 动作 的 概率 值 估计 为 
1/15| 。 如 果 没 有 关于 一 个 具体 序列 后 的 具体 动作 的 足够 的 数据 时 ， 这 种 设 定 是 非常 合理 
的 。 拉 普 拉 斯 平滑 的 概念 是 通过 提供 一 个 与 正则 化 相似 的 函数 ， 来 避免 在 有 限 的 训练 数据 
上 过 拟 合 。 在 实践 中 ， 零 频率 的 状态 不 会 在 马尔 可 夫 模 型 中 表示 。 这 意味 着 某 些 状态 会 
失 ， 并 且 可 能 无 法 为 特定 测试 序列 找到 匹配 的 状态 。 这 些 被 称 为 未 被 履 姜 的 测试 实例 。 那 
么 如 何 处 理 这 些 状 态 呢 ? 

[182] 中 的 工作 构建 了 所 有 最 大 阶 数 为 1 的 马尔 可 夫 模 型 ， 然 后 使 用 覆盖 测试 实例 的 
最 高 阶 模型 。 换 名 话说， 如 果 所 有 不 超过 3 阶 的 模型 被 创建 ， 方 法 首先 会 尝试 在 3 阶 马尔 
可 夫 模 型 中 找到 匹配 状态 。 如 果 存 在 这 样 的 状态 ， 则 将 其 用 于 预测 。 否 则 ,测试 2 阶 的 马 
尔 可 夫 模 型 ， 然 后 测试 1 阶 模型 。 对 于 大 多 数 大 小 合理 的 训练 数据 集 来 说 ，1 阶 的 马尔 可 
夫 模 型 中 包含 所 有 可 能 的 | 了 | 种 状态 ， 因 此 它 作为 未 找到 高 阶 匹配 模型 的 复杂 情况 下 的 默认 
模型 。 如 果 需 要 ， 在 没有 找到 匹配 的 状态 时 ， 可 以 返回 一 个 对 应 于 最 常见 动作 的 默认 预测 。 

9.3.1.1 选择 性 马尔 可 夫 模 型 

上 一 节 中 概述 的 方法 的 问题 之 一 是 可 能 的 状态 数量 可 能 过 大 ， 并 且 大 多 数 状态 甚至 不 
存在 于 特定 的 训练 数据 集中 。 大 量 的 状态 也 使 得 训练 模型 需要 付出 更 多 代价 ， 因 此 需要 估 
计 一 个 阶 马尔 可 夫 模 型 的 |5| 寺 ! 个 可 能 概率 。 对 于 较 大 的 & 值 ， 训 练 这 种 模型 可 能 是 不 
切实 际 的 。 此 外 ， 训 练 数据 中 很 人 少 出 现 的 状态 可 能 对 于 训练 目的 来 说 是 不 可 靠 的 。 

[182] 的 主要 思想 是 提出 选择 性 马尔 可 夫 模 型 的 概念 ， 其 中 许多 不 相关 的 状态 在 模型 
构建 过 程 中 被 剪 枝 。 这 种 剪 枝 可 以 通过 以 下 几 种 方式 完成 : 

D 支持 度 剪 枝 的 马尔 可 夫 模 型 : 状态 MAP) 的 支持 度 是 其 在 训练 数据 中 出 现 
的 频率 。 基 本 的 假设 是 低 支 持 度 的 状态 对 于 未 知 的 测试 数据 的 预测 能 力 是 不 可 靠 的 。 特 别 
是 由 于 过 拟 合 ， 低 支持 度 的 状态 的 估计 概率 可 能 是 不 可 靠 的 。 支持 度 剪 枝 可 以 大 大 减少 高 
阶 模型 中 的 状态 数量 。 支 持 度 靖 值 被 定义 为 绝对 频率 〈 而 不 是 比例 )， 并 且 在 不 同 阶 的 模 
型 中 被 定义 为 相同 的 值 。 高 阶 模型 具有 较 低 的 支持 度 ， 因 此 更 有 可 能 进行 状态 剪 枝 。 这 种 方 
法 大 大 降低 了 模型 的 状态 空间 复杂 性 ， 因 为 可 能 的 状态 的 数量 随 模型 的 阶 数 呈 指数 增长 。 

2) 置信 度 剪 枝 的 马尔 可 夫 模 型 : 置信 度 剪 枝 的 马尔 可 夫 模 型 最 趋向 这 样 的 一 个 状态 ， 
其 中 一 个 状态 的 出 边 的 最 大 概率 尽 可 能 大 。 注 意 ， 如 果 存 在 一 个 状态 ， 其 对 应 的 所 有 转换 
概率 的 值 相似 ， 那 就 不 能 自信 地 断言 3 中 哪个 动作 比 其 他 动作 的 可 能 性 更 大 。 男 一 种 极端 
的 情况 下 ， 如 果 转 换 状 态 中 一 条 边 具 有 几乎 为 1 的 概率 ， 而 其 他 边 的 概率 接近 为 0， 那 就 
可 以 自信 地 预测 该 状态 下 的 下 一 个 动作 。 这 种 状态 更 有 用 。 那 么 如 何 为 前 校 确 定 合适 的 置 
信和 度 阔 值 呢 ? 

该 方法 计算 最 可 能 动作 附近 100。 (1 一 a) 的 置信 区 间 ， 确 定 第 二 高 的 概率 是 否 位 于 
这 一 区 间 。 考 虑 一 个 剪 枝 的 候选 状态 ， 其 在 训练 集中 的 行 频率 为 2。 令 pi 和 ps 是 退出 该 
状态 的 概率 第 一 高 和 概率 第 二 高 的 边 所 对 应 的 转换 概率 。 我 们 已 经 确定 p.<p,. AW p 
是 最 大 的 概率 。 令 zz 为 与 标准 正 态 分 布 前 百 分 之 (a/2) 的 值 匹配 的 Z 值 的 绝对 值 。 然 
后 ， 为 了 前 枝 状 态 ， 必 须 满足 以 下 条 件 : 
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[p; Ci = py) 
b2 È Pı — za/2 全 一 一 全 (9-14) 


wE, gf PSP 表示 个 独立 同 分 布 的 伯 努 利 变量 平均 值 的 标准 差 ， 其 中 每 个 变量 均 


Ap; 的 成 功 概率 。 剪 枝 的 程度 由 置信 度 阔 值 a 控制 。 

3) 误差 剪 枝 马尔 可 夫 模 型 : 在 误差 前 枝 马尔 可 夫 模型 中 ， 从 训练 数据 中 取出 一 部 分 
数据 作为 验证 集 ， 而 不 用 于 建立 马尔 可 夫 模 型 。 此 验证 集 用 于 测试 模型 的 精确 性 。 使 用 验 
证 集 计 算 每 个 状态 的 具体 精度 。 对 于 每 个 高 阶 状 态 ， 确 定 了 其 直接 低 阶 预测 方案 。 例 如 ， 
对 于 一 个 4 阶 状态 a1aza3as， 可 以 用 低 阶 状态 asa3a4、asas Ma, 预测 相同 的 动作 序列 。 
如 果 较 高 阶 状态 的 错误 率 大 于 任意 其 低 阶 替代 状态 的 错误 率 ， 则 会 被 剪 掉 。 该 过 程 被 递归 
地 应 用 于 所 有 阶 的 状态 ， 从 较 高 到 较 低 ， 直 到 不 再 有 更 多 的 状态 被 修剪 。 始 终 保 留 1 阶 状 
态 以 保证 最 大 限度 的 覆盖 。 

虽然 上 述 方 法 比较 了 高 阶 和 低 阶 状态 的 误差 ,但 是 它 不 使 用 相同 的 验证 示例 来 比较 一 
对 状态 的 精确 性 。 第 二 种 误差 前 枝 法 使 用 相同 的 一 组 验证 示例 来 比较 两 种 状态 的 误差 。 首 
先 ， 可 以 用 高 阶 状态 预测 所 有 验证 示例 。 然 后 ， 用 相同 的 验证 示例 测试 低 一 阶 的 状态 。 如 
果 使 用 较 高 阶 状态 的 误差 大 于 同一 验证 示例 中 任何 较 低 阶 状 态 ， 则 高 阶 状态 被 前 枝 掉 。 该 
方法 递归 地 应 用 于 所 有 低 阶 状态 ， 除 了 阶 数 为 1 的 状态 。 

这 些 替 代 方 案 在 [182] 中 进行 了 实验 测试 。 结 果 表 明 ， 所 有 形式 的 剪 枝 都 具有 一 定 
的 优势 ,不 过 使 用 误差 前 枝 的 模型 的 优势 最 大 。 支 持 度 剪 枝 模型 和 置信 度 剪 枝 模型 之 间 的 
差异 很 小 。 

9.3.1.2 其 他 马尔 可 夫 蔡 代 方案 

在 本 节 的 马尔 可 夫 模 型 中 ， 连 续 的 动作 序列 被 用 来 预测 下 一 个 动作 。 上 此外， 状态 是 完 
全 可 见 的 ， 并 且 被 直接 解释 为 最 后 的 & 个 用 户 动作 。 一 个 更 复杂 的 替代 方案 是 隐 马 尔 可 夫 
模型 (HMM)。 在 这 种 情况 下 ， 可 以 使 用 不 连续 的 子 序列 进行 预测 。HMM 方法 超出 了 本 
书 的 范围 ， 请 参考 9. 6 节 。 


9.3.2 序列 模式 挖掘 


序列 模式 挖掘 最 初 的 提出 是 为 了 对 超市 数据 序列 进行 模式 挖掘 。 序 列 模式 可 用 于 为 时 
间 序 列 创建 基于 规则 的 预测 模型 。 这 种 方法 可 以 被 认为 是 第 3 章 3. 3 节 中 所 讨论 的 基于 规 
则 的 方法 在 时 间 上 的 模拟 。 首 先 ， 我 们 定义 子 序列 和 频繁 子 序列 的 概念 。 

定义 9.3. 1 ( 子 序列 ) ”一 个 序列 aan a, 被 称 为 是 另 一 个 序列 b1bs*…ba 的 子 序列 ， 
So RAAT AT VARS k PAK bi bi, RAE ie iy Ha, =bi 。 

在 序列 模式 挖掘 的 原始 定义 中 中 ,元素 本 身 可 以 为 集合 ， 并 且 条 件 a, =), WERA 
Alta, Ebi 。 然 而 ， 在 大 多 数 推荐 应 用 中 ， 这 个 复杂 的 定义 是 不 必要 的 ， 我 们 可 以 使 用 单 
个 符号 序列 。 因 此 ， 我 们 将 在 本 章 中 使 用 简化 的 定义 。 值 得 注意 的 是 ， 子 序列 的 定义 允许 
在 匹配 中 存在 间隙 。 人 允许 这 种 间隙 的 存在 对 于 排除 序列 中 的 噪声 是 很 有 用 的 。 

在 序列 模式 挖掘 方法 中 ， 目 标 是 确定 数据 中 频繁 出 现 的 支持 度 在 * 之 上 的 子 序列 。 频 
率 是 定义 在 一 个 有 多 个 序列 的 数据 库 刀 上 的 。 

定义 9. 3. 2 (频繁 子 序列 ) 给 定 序 列 的 最 小 支持 度 s， 一 个 子 序 列 aya, 被 称 为 数 
据 库 罗 上 的 一 个 频繁 子 序列 ， 如 果 它 在 原 序 列 中 所 占 的 比例 至 少 为 s。 

注意 ， 支 持 度 始 终 是 定义 的 一 部 分 。 还 可 以 定义 在 序列 模式 挖掘 中 规则 的 置信 和 度 。 传 
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统 上 ， 置 信 度 的 概念 只 是 针对 非 时 间 关 联 规则 而 定义 的 ， 但 也 可 以 以 各 种 方式 将 定义 扩展 
到 序列 模式 挖掘 中 。 

定义 9.3.3 (HR) ”一 条 规则 al…ak=>akt+1 的 置信 度 等 于 al …ak+1 是 数据 库 中 的 
一 个 序列 的 条 件 概率 ， 已 知 aya, 是 数据 库 中 的 一 个 序列 。 换 言 之 ， 如 果 f(S) 表 示 序 列 
S 的 支持 度 ， 那 么 可 以 定义 规则 al…akt=>ak+i 的 置信 度 如 下 : 
8al akHl) 

Flara) 

注意 ， 序 列 规则 挖掘 的 置信 度 的 定义 是 基于 关联 规则 挖掘 而 来 的 。 置 信 度 的 概念 可 以 根据 
当前 的 应 用 以 其 他 方式 来 定义 。 例 如 ， 可 以 在 某 些 应 用 中 给 出 约束 ， 令 ari RE a 之 后 
而 没有 间 院 。 

支持 度 和 置信 和 度 的 定义 可 用 于 定义 基于 序列 模式 的 规则 。 

定义 9.3.4 (基于 序列 模式 的 规则 ) ”一 条 规则 aa, >a, ERARA TFE MAR 
其 在 最 小 支持 度 5 和 最 小 置信 和 度 c 下 是 有 效 的 : 

1. apnar HW XFREY HA s, 

2.4; °a,> a4, ERRESA Co 

用 于 确定 频繁 序列 模式 的 算法 在 (23) 中 有 讨论 。 在 序列 模式 被 确定 之 后 ， 还 可 以 用 
最 小 支持 度 和 置信 度 来 确定 规则 。 序 列 模式 挖掘 方法 的 训练 阶段 会 找 出 所 有 满足 指定 的 最 
低 支 持 度 和 最 低 置 信 度 水 平 的 规则 。 在 规则 被 确定 之 后 ， 以 下 方法 被 用 于 预测 当前 测试 序 
列 了 的 物品 相关 排名 列表 〈 例 如 ， 网 页 点 击 流 中 的 点 击 事件 ) : 

D 确定 测试 序列 T 的 所 有 匹配 规则 。 

2) 将 匹配 规则 的 物品 按 置 信和 度 降序 排列 。 当 多 个 规则 包含 相同 物品 时 ， 可 以 使 用 启 
发 式 方法 将 预测 进行 聚集 。 

在 一 些 情况 下 ， 可 能 需要 限制 连续 元 素 之 间 的 间隙。 例如 ， 当 序列 非常 长 时 ， 通 常 更 
希望 在 训练 和 预测 过 程 期 间 对 序列 施 以 间隙 约束 。 根 据 当 前 的 具体 应 用 ， 可 以 使 用 这 种 基 
本 方法 的 许多 变形 。 这 些 变形 如 下 : 

1) 在 查找 频繁 序列 的 过 程 中 可 能 会 使 用 最 大 间隙 限制 。 换 句 话说 ， 匹 配 过 程 可 以 多 
许 一 对 相 邻 序列 之 间 的 最 大 间隙 至 多 为 $。 或 者 ， 可 以 对 序列 的 第 一 个 和 最 后 一 个 元 素 的 
时 间 差 使 用 最 大 约束 。 这 种 约束 可 以 通过 约束 序列 模式 挖 据 方法 来 处 理 ， 并 且 当 数据 库 中 
的 单个 序列 非常 长 时 ， 它 们 是 特别 重要 的 。 关 于 约束 序列 模式 挖掘 方法 的 讨论 可 以 在 [22] 
中 找到 。 

2) 整个 测试 序列 了 可 能 不 需要 进行 预测 。 相 反 ， 只 有 测试 序列 中 预定 义 大 小 的 最 近 
的 窗口 可 能 会 被 用 到 。 当 单个 序列 的 长 度 很 长 时 ， 窗 口 方法 是 有 必要 的 。 

这 类 方法 的 最 好 的 变形 取决 于 当前 的 具体 应 用 。9. 6 节 提 到 了 各 种 使 用 序列 模式 挖掘 
的 推荐 系统 。 许 多 这 些 系统 是 在 网 页 点 击 流 的 背景 下 开发 的 。 序 列 模式 挖掘 方法 的 优点 是 
可 以 使 用 许多 现成 的 工具 来 有 效 地 查找 大 型 数据 库 中 的 模式 。 


9.4 位 置 感知 推荐 系统 


位 置 感知 推荐 系统 可 以 视 为 上 下 文 感知 推荐 系统 的 特殊 情况 ， 其 中 上 下 文 由 位 置 来 定 
义 。 位 置 可 以 以 各 种 方式 影响 推荐 的 过 程 ， 其 中 以 下 两 种 方式 特别 常见 : 

D 用 户 的 全 球 地 理 位 置 可 以 对 她 在 品味 、 文 化 、 服 装 、 饮 食 习 惯 等 方面 的 偏好 产生 
很 大 影响 。 例 如 ， 对 MovieLens 数据 集 的 分 析 5?43] 表 明 ， 来 自 威斯康星 州 的 用 户 最 偏爱 的 
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电影 题材 是 战争 片 ， 而 来 自 佛罗里达 州 的 用 户 则 最 喜欢 奇幻 片 。Foursquare 数据 集中 也 显 
示 了 类 似 的 结果 。 这 种 属性 被 称 为 偏好 位 置 。 在 这 种 情况 下 ， 该 位 置 本 质 上 与 用 户 相 关 
联 ， 而 不 与 物品 相关 联 。 因 此 在 这 种 情况 下 ， 用 户 是 空间 的 ， 而 物品 不 是 。 

2) 移动 用 户 经 常 想 要 在 当前 位 置 附近 发 现 餐厅 或 休闲 场所 。 在 这 种 情况 下 ， 推 荐 的 
物品 具有 内 在 的 空间 性 。 这 个 属性 被 称 为 旅行 位 置 。 例 如 ，Foursquare 数据 集 的 分 析 5343] 
Gam. 4% APE 10 英里 或 更 少 ，75%% 的 用 户 行走 50 英里 或 更 少 ， 以 访问 其 当地 的 
和 餐厅。 在 这 些 应 用 中 ， 位 置 与 物品 (例如 ， 餐 厅 ) 相关 联 。 虽然 用 户 可 能 会 指定 他 们 当前 
Hie, 但 是 这 种 瞬 态 属性 只 在 查询 期 间 被 指定 ， 并 没有 本 质 上 与 用 户 指 定 的 评分 相关 
联 。 因 此 在 这 种 情况 下 ， 物品 是 空间 的 ， 而 用 户 不 是 ， 

3) 可 以 想象 用 户 和 物品 都 是 空间 的 场景 。 例 如 ， 一 位 旅行 的 用 户 可 能 会 设置 一 个 指 
示 其 久居 地 址 的 画像 。 同 时 ， 他 们 可 能 会 记录 其 对 餐厅 等 空间 物品 的 评分 。 例 如 ， 考 虑 分 
别 来 自 新 奥尔良 和 波士顿 的 两 个 在 夏威夷 度假 的 用 户 。 这 些 游客 可 能 会 在 夏威夷 的 餐厅 给 
出 他 们 的 评分 。 在 这 种 情况 下 ， 用 户 和 物品 都 是 空间 的 ， 因 为 对 餐厅 的 选择 将 受到 其 原始 
位 置 的 影响 。 同 时 ， 当 用 户 在 休假 期 间 在 夏威夷 的 特定 地 点 进行 查询 时 ， 旅 行 位 置 偏好 也 
将 在 他 们 选择 餐厅 的 过 程 中 发 挥 作用 。 

位 置 感知 推荐 系统 可 以 视 为 上 下 文 感知 方法 的 特殊 情况 。 可 以 使 用 前 面 几 节 所 讨论 的 
多 维 技术 来 处 理 推荐 系统 中 的 上 下 文 。 对 于 偏好 位 置 的 概念 也 是 如 此 ， 通 过 将 位 置 视 为 上 
下 文 可 以 使 用 [6] 中 的 多 维 模型 ， 并 将 网 格 区 域 的 层次 分 类 与 空间 位 置 相关 联 ， 然 后 将 
问题 降 维 成 在 网 格 中 某 一 个 层次 区 域 上 的 传统 的 协同 过 滤 应 用 。 事 实 上 ， 位 置 感知 推荐 系 
统 (LARS)043] 确 实 使 用 类 似 的 基于 还 原 的 方法 来 处 理 偏好 位 置 。 然 而 ，[343] 中 的 方法 
比 直接 应 用 6] 的 多 维 方法 更 复杂 。 为 了 表示 网 格 区 域 的 层次 分 类 法 ， 它 使 用 多 维 索引 
结构 。 这 种 索引 结构 可 以 支持 评分 的 额外 递增 ， 因 此 在 需要 可 扩展 性 的 环境 中 能 够 有 效 运 
行 。 此 外 ， 该 工作 还 提出 了 处 理 旅 行 位 置 和 将 旅行 与 偏好 位 置 相 结合 的 方法 。 


9.4.1 偏好 位 置 


如 前 所 述 ， 偏 好 位 置 的 概念 和 推荐 系统 的 基于 降 维 的 多 维 模型 有 许多 共同 的 特征 [9 。 
例如 ， 考 虑 MovieLens 数据 集 的 示例 ， 除 评分 信息 之 外 ， 用 户 的 位 置 也 是 可 用 的 。 对 于 加 
州 的 一 位 用 户 来 说 ,我们 可 能 只 会 使 用 其 他 加 州 用 户 的 评分 ， 以 便 为 该 用 户 提 供 推荐 。 该 
方法 等 同 于 通过 将 位 置 固定 为 加 州 来 提取 用 户 X 物 品 X 位 置 数 据 立方 体 的 一 个 切片 。 然 后 
可 以 在 该 切片 上 使 用 二 维 推荐 系统 。 这 是 基于 降 维 的 系统 的 一 个 直接 应 用 [5 。 

当然 ， 这 种 方法 是 相当 粗糙 的 ， 因 为 位 置信 息 可 能 具有 更 高 的 粒度 。 例 如 ， 现 在 可 能 
有 每 个 用 户 的 地 址 。 南 加 州 的 用 户 可 能 会 显示 出 与 北 加 州 的 用 户 不 同 的 偏好 。 另 一 方面 ， 
对 于 一 个 小 的 州 或 位 置 ， 可 能 没有 足够 的 评分 数据 来 做 出 强 有 力 的 推荐 。 因 此 ， 可 能 需要 
结合 来 自 多 个 相 邻 区 域 的 数据 。 那 么 如 何 有 意义 地 处 理 这 些 权 衡 呢 ? 

LARS 方法 B431 使 用 金字 塔 树 或 四 又 树 以 分 层 的 方式 划分 整个 空间 区 域 [3'22 。 注 意 ， 
这 种 方法 分 配 数据 空间 而 不 是 数据 点 ， 以 确保 空间 中 的 每 个 点 都 包含 在 其 中 一 个 分 区 中 。 
这 确保 了 在 查询 过 程 中 可 以 有 效 地 处 理 新 的 测试 位 置 ， 即 使 它们 设 有 在 数据 中 表示 。 人 金字 
塔 树 将 空间 分 解 为 五 层 。 对 于 任何 层 hE {10… 互 一 1}， 空 间 被 划分 为 全 个 网 格 单元 。h 二 0 
的 顶层 只 包含 一 个 单元 格 ， 它 包含 了 整个 数据 空间 。 例 如 ， 考 虑 模型 的 顶层 包含 的 区 域 与 
整个 美国 相对 应 的 情况 。 然 后 ， 下 一 个 层 将 美国 划分 为 4 个 区 域 ， 每 个 区 域 都 有 一 个 单独 
的 模型 。 下 一 个 层 将 这 些 区 域 再 划分 为 4 个 区 域 ， 依 此 类 推 。 每 个 网 格 单元 格 包含 一 个 只 
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对 应 于 和 矩形 界定 的 数据 空间 区 域 上 的 协同 过 滤 模 型 。 因 此 ， 顶 层 网 格 单元 格 包 含 了 一 个 包 
含 所 有 评分 的 传统 〈 非 局 部 的 ) 协同 过 滤 模 型 。 金 字 塔 树 的 层次 划分 的 一 个 例子 如 图 9- 2 
所 示 。 在 图 中 ， 单 元 格 标 识 符 由 CID 表示 ， 其 左 侧 的 表 项 包含 指向 与 该 单元 格 相关 的 协同 
过 滤 模 型 的 指针 。 该 数据 结构 是 动态 维护 的 ， 以 便 可 以 从 系统 中 插入 或 删除 评分 。 在 动态 
更 新 过 程 中 的 一 个 挑战 是 ， 由 于 在 更 新 期 间 需 要 对 单元 格 的 动态 合并 或 拆 分 ， 有 时 无 法 维 
护 单元 格 的 一 个 子 集 的 模型 。 请 注意 ， 如 果 单元 格 在 更 新 期 间 合 并 或 拆 分 ， 则 需要 从 头 重 
新 创建 这 些 新 单元 格 的 模型 。 这 导致 计算 成 本 很 大 。 但 是 ， 如 果 在 没有 动态 更 新 的 情况 下 
构建 树 ， 那 么 就 可 以 维护 所 有 项 的 模型 。 因 此 ， 当 仅 考 虑 静态 数据 时 ， 该 方法 很 简单 。 此 
方法 也 可 以 通过 一 些 修改 从 而 扩展 到 动态 更 新 。 有 关 动 态 更 新 过 程 的 详细 信息 ， 读 者 可 参 
阅 [343]. 








整个 系统 区 域 
(第 0 层 ) 








图 9-2 位 置 感知 查询 处 理 中 的 金字 塔 树 G4 


查询 处 理 的 方法 使 用 这 个 金字 塔 数据 结构 。 为 了 给 用 户 做 出 推荐 ，LARS 法 确定 了 保 
留 金字 塔 结构 的 最 底层 单元 格 。 在 这 层 的 局 部 协同 过 滤 模 型 用 于 预测 评分 。 使 用 基于 物品 
的 〈 近 邻 ) 协同 过 滤 技 术 来 执行 推荐 。 注 意 ， 原 则 上 可 以 使 用 任何 常规 的 协同 过 滤 模 型 。 
该 模型 确实 需要 随 着 新 进来 的 评分 进行 增 量 更 新 。 因 此 ， 选 择 恰当 的 增 量 更 新 的 基本 模型 
非常 重要 。 

该 方法 还 能 够 支持 用 户 位 置 随时 间 变 化 的 连续 查询 。 请 注意 ， 用 户 位 置 的 变化 率 是 与 
具体 应 用 相关 。 当 用 户 - 位 置 对 应 其 地 址 时 ， 变 化 率 会 非常 慢 。 然 而 可 以 设想 其 他 的 位 置 
定义 ， 某 些 位 置 的 变化 随 着 时 间 的 推移 发 生得 更 快 。 但 是 对 于 一 条 规则 来 说 ， 偏 好 位 置 通 
常 不 会 非常 快速 地 改变 。 在 连续 查询 中 ， 如 上 所 述 形成 初始 建议 。 然 后 ， 系 统 等 待 用 户 位 
置 发 生 充 分 变化 ， 使 其 跨越 单元 格 边 界 。 当 单元 格 边 界 被 越过 时 ， 再 次 使 用 最 底层 的 单元 
格 来 更 新 推荐 。 因 此 ， 最 后 报告 的 答案 可 以 随 着 时 间 逐 步 更 新 。 

最 后 ， 用 户 还 可 以 选择 性 地 指定 执行 其 推荐 过 程 的 粒度 的 地 理 层 次 。 可 以 使 用 金字 塔 
树 中 用 户 指定 的 层次 ， 而 不 是 使 用 最 底层 的 网 格 单元 。 例 如 ， 通 过 指定 层次 为 0， 则 只 能 
使 用 根 结 点 。 这 会 变 成 一 个 传统 的 协同 过 滤 模 型 ， 而 根本 不 使 用 位 置 。 这 种 方法 允许 用 户 
在 她 的 查询 中 指定 不 同 级 别 的 地 理 分 辩 率 。 
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9.4.2 旅行 位 置 


在 这 种 情况 下 ， 位 置 与 物品 相关 联 而 不 是 与 用 户 相关 联 。 例 如 ， 在 餐厅 推荐 系统 中 ， 
位 置 与 餐厅 相关 联 。 但 是 ， 用 户 可 能 会 在 一 次 特定 查询 中 指定 其 当前 位 置 。 显 然 ， 我 们 希 
望 系统 可 以 给 出 接近 查询 指定 位 置 的 响应 。 结 合 旅行 惩罚 的 概念 ，LARS 中 已 实现 该 查询 
处 理 。 计 算 用 户 i 的 查询 位 置 与 物品 j 的 位 置 之 间 的 距离 A(i，j)。 首 先 用 传统 的 协同 过 
滤 模 型 在 整个 数据 上 对 用 户 i 对 物品 j 的 评分 六 ;进行 预测 。 然 后 ， 用 AGi， 力 的 一 个 函数 
FC + ) 来 惩罚 预测 的 评分 。 调 整 后 的 评分 加 的 计算 方法 如 下 : 
f3 = Fy — FUG, j)) (9-15) 
RE, FC + ) 是 距离 AG, 7) AY —7 AR em, MANE ENRE. E 
罚 函 数 F C+) 的 确切 定义 是 启发 式 的 。[343] 将 旅行 距离 直接 归 一 化 到 评分 规模 上 来 定 
义 惩罚 函数 。 如 果 需 要 ， 甚 至 可 以 将 其 假设 为 距离 的 特定 函数 〈 例 如 ， 线 性 函数 )， 并 通 
过 交叉 验证 来 优化 该 函数 的 系数 。 最 优 函数 的 选择 是 一 个 有 趣 的 研究 问题 ， 可 以 在 未 来 的 
工作 中 进行 探索 ， 因 为 它 直接 影响 系统 的 精确 性 。 函 数 的 最 优选 择 很 可 能 是 针对 当前 数据 
集 的 。 


94.3 结合 偏好 位 置 与 旅行 位 置 


可 能 存在 位 置 与 用 户 和 物品 都 相关 的 情况 。 例 如 ， 当 两 位 旅客 在 夏威夷 度假 时 ， 主 要 地 
址 在 新 奥尔良 的 旅客 可 能 会 与 主要 地 址 在 波士顿 的 旅客 有 着 不 同 的 餐厅 偏好 。 同 时 ， 推 荐 系 
统 也 应 在 推荐 过 程 中 考虑 在 夏威夷 的 瞬 态 查询 位 置 。 在 这 种 情况 下 ， 可 以 组 合 与 偏好 地 点 和 
旅行 地 点 相关 的 方法 。 首 先 ， 基 于 主要 用 户 位 置 使 用 金字 塔 树 结构 ， 以 便 预 测评 分 。 然 后 ， 
瞬 态 查询 位 置 与 上 述 的 旅行 惩罚 结合 使 用 。 之 后 将 排名 最 靠 前 的 物品 返回 给 用 户 。 


9.5 Whe 


许多 类 型 的 时 间 和 位 置 感知 系统 都 属于 上 下 文 感知 推荐 系统 的 类 别 。 时 间 的 概念 可 以 
极 大 提高 推荐 系统 的 有 效 性 。 时间 感知 推荐 系统 可 以 使 用 基于 新 近 的 方法 、 基 于 上 下 文 的 
方法 ， 或 者 可 以 将 时 间 用 作 建 模 变 量 。 最 后 一 种 类 型 是 最 著名 的 方法 之 一 ， 被 称 为 time- 
SVD 十 十 模型 ， 其 提出 了 推荐 的 潜在 因子 模型 。 对 于 表示 为 离散 序列 的 数据 ， 也 提出 了 一 
些 推荐 方法 。 例 如 ， 网 页 点 击 流 或 超市 数据 都 包含 离散 的 活动 序列 。 这 些 情 况 通常 出 现在 
隐 式 反馈 数据 集 的 上 下 文中 。 在 这 些 情况 下 ， 使 用 各 种 离散 序列 方法 来 执行 推荐 。 离 散 的 
马尔 可 夫 模 型 和 序列 模式 挖掘 方法 在 这 些 情况 下 被 用 来 进行 推荐 。 

位 置 感知 推荐 系统 是 上 下 文 感知 系统 的 特殊 情况 ， 其 中 空间 位 置 提供 了 做 出 推荐 的 上 
下 文 。 在 基于 位 置 的 系统 中 ， 位 置 可 以 与 用 户 、 物 品 或 两 者 都 相关 联 。 这 些 不 同形 式 的 上 
下 文 会 导致 执行 推荐 的 方法 截然 不 同 。 


9.6 相关 工作 


时 间 推 荐 属于 第 8 章 中 从 一 般 意义 上 讨论 的 上 下 文 感知 推荐 的 类 别 。 最 近 有 关 时 间 感 
知 推荐 系统 的 综述 可 以 在 [130] 中 找到 。 在 [185，186」 中 讨论 了 一 些 最 早 的 基于 时 间 
加 权 和 衰减 的 协同 过 滤 模 型 。[635]」 中 测试 了 各 种 衰减 函数 。[249」 中 的 工作 也 将 评分 之 
间 的 时 间 相似 度 结合 到 计算 之 中 。[230] 提出 了 基于 时 间 窗 口 的 方法 ， 其 中 来 自 不 活跃 间 
隔 的 评分 会 被 剪 枝 。[595] 中 的 工作 根据 制作 年 份 在 做 电影 推荐 中 进行 剪 枝 。 这 种 方法 降 
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低 了 数据 集 的 维度 ， 因 为 它 删除 了 物品 的 一 个 子 集 ， 而 不 是 仅 对 旧 的 评分 进行 剪 枝 。 

[366] 讨论 了 用 进化 模型 扩展 近邻 模型 的 方法 。[333] 中 讨论 了 使 用 自 适应 近邻 进行 
时 间 协 同 过 滤 的 另 一 种 技术 。 这 项 工作 还 表明 ， 许 多 现 有 的 推荐 算法 使 用 过 去 的 评分 来 预 
测 未 来 的 评分 时 ， 在 Netflix Prize 数据 集 上 似乎 并 不 能 有 很 好 的 表现 。 基 于 位 置 推荐 的 时 
间 感 知 方法 在 【655] 中 有 所 讨论 。[639] 讨论 了 使 用 随机 游 走 方法 进行 时 间 推 荐 的 方法 。 
与 时 间 协 同 过 滤 有 关 的 一 类 有 趣 的 算法 是 推荐 系统 在 推荐 空间 "中 中 进行 探索 与 利用 的 
折 中 的 多 臂 赌博 机 算法 。 这 种 方法 也 与 第 13 章 中 讨论 的 主动 学 习 密 切 相关 。 

执行 时 间 感 知 推荐 的 一 个 通用 方法 是 将 时 间 信 息 作为 离散 的 上 下 文 值 ， 以 创建 多 维 的 
表示 [s'"]。 随 后 的 工作 5 中 具体 处 理 了 这 一 框架 的 时 间 上 下 文 。 在 [61] 中 测试 了 各 种 形 
式 的 上 下 文 ， 以 执行 音乐 推荐 。 虽然 有 些 形式 的 上 下 文 ， 如 “早上 ”和 “晚上 ”被 证 明 可 
以 改进 推荐 ， 但 最 大 的 改进 是 使 用 无 意义 切 分 ， 例 如 “奇数 小 时 ”和 “偶数 小 时 ”， 这 可 
能 是 特定 数据 特性 的 结果 ， 因 此 需要 进一步 的 研究 来 了 解 这 些 影响 。 

[335] 讨论 了 用 于 评估 时 间 推 荐 系统 的 现实 方法 。 最 近 的 一 项 综述 0630 指 出， 评价 方 
法 对 消除 在 最 近 结 果 中 发 现 的 了 矛盾 有 着 重要 的 意义 ， 并 提出 了 一 些 时 间 推 荐 系统 的 评估 指 
标 。[337] 探讨 了 如 季节 、 几 点 钟 和 星期 几 等 多 种 变量 的 组 合 。 在 [231, 471] 中 讨论 了 
以 更 复杂 的 方式 合并 时 间 维 度 的 其 他 方式 。[100] 中 的 工作 研究 了 电影 推荐 中 使 用 周期 性 
的 上 下 文 。 例 如 ， 圣 诞 节 期 间 与 奥斯卡 颁奖 周期 间 的 电影 推荐 会 非常 不 同 。[567] 讨论 了 
使 用 上 下 文 方法 来 改进 季节 性 产品 的 推荐 。 在 这 项 工作 中 采用 了 时 间 回 归 法 。 上 下 文 感知 
电影 推荐 挑战 CAMRA)r5515J 是 对 [100] 中 的 工作 进行 测试 的 平台 。 这 个 挑战 研究 了 各 
种 类 型 的 上 下 文 ， 而 不 仅仅 是 时 间 上 下 文 。 上 下 文 方法 0 评估 了 各 种 时 间 维 度 的 影响 ， 
包括 一 天 中 的 小 时 、 星 期 几 和 评分 日 期 。L458] 的 工作 使 用 支持 向 量 机 来 对 各 种 类 型 的 上 
下 文 建 模 ， 如 时 间 、 天 气 和 公司 。 

已 有 多 项 工作 对 评分 的 上 下 文 使 用 的 时 间 序 列 模型 进行 了 研究 ,43] 。 在 这 些 方 法 
中 ， 用 户 评 分 的 时 间 序 列 被 用 于 预测 当前 用 户 的 兴趣 。 时 间 序 列 方法 也 被 用 于 显 式 评分 不 
可 用 的 隐 式 反馈 中 。 例 如 ，[684] 中 的 工作 将 网 页 日 志 编 码 为 时 间 序 列 ， 并 且 时 间 序 列 技 
术 被 用 于 预测 。[266] 为 不 同 的 时 间 段 构建 了 几 个 不 感知 时 间 的 模型 ， 然 后 使 用 混合 方法 
来 组 合 这 些 模 型 的 预测 。[310] 首先 提出 在 时 间 推 荐 中 使 用 因子 分 解 模 型 。 类 似 的 模型 也 
被 应 用 于 音乐 推荐 的 场景 中 [so 。[310] 中 的 工作 并 不 对 基于 时 间 的 物品 因子 进行 区 分 。 
在 [293] 中 提出 了 一 个 更 精细 的 模型 ， 根 据 评 分 时 间 惟 来 学 习 不 同 的 物品 因子 。 随 后 ， 
还 提出 了 许多 用 于 上 下 文 推荐 的 矩阵 和 张 量 因子 分 解法 ， 其 中 时 间 被 视 为 离散 的 上 下 文 
值 [312,294.332,495,496] 。 这些 方法 可 以 被 看 作 是 [7] 中 多 维 上 下 文 模型 的 一 般 实现 。 

离散 方法 在 网 页 领域 的 上 下 文中 是 很 常见 的 ， 其 中 需要 使 用 网 页 点 击 流 执行 个 性 
400] 。[296] 提出 了 一 个 初级 版 本 的 有 限 马尔 可 夫 链 。 在 超市 数据 的 情境 下 定义 了 序列 
模式 挖掘 问题 7] 。 关 于 序列 模式 挖掘 的 常见 算法 的 综述 可 以 在 [22，23] 中 找到 。 为 了 
在 网 页 日 志 中 使 用 这 些 方法 ， 需 要 大 量 的 数据 准备 584 。[182] 讨论 了 用 于 预测 网 页 访问 
的 离散 马尔 可 夫 法 。 马 尔 可 夫 链 所 需 的 背景 可 以 在 [265] 中 找到 。 [208，440，442， 
443, 562] 中 讨论 了 用 于 预测 网 页 日 志 访 问 的 序列 模式 挖掘 方法 。[479] 讨论 了 使 用 长 重 
复 子 序列 来 预测 网 页 访问 。[L532] 讨论 了 使 用 路 径 配 置 文件 来 预测 网 页 请 求 。[218] 对 预 
测 下 一 请 求 的 各 种 模式 挖掘 方法 进行 评估 。 关 于 隐 马 尔 可 夫 模 型 的 详细 讨论 可 以 在 [319j 
中 找到 ， 关 于 数据 挖掘 应 用 的 简单 讨论 可 以 在 [22] PRE. 

近期 的 大 量 工作 集中 在 位 置 感知 推荐 系统 上 [4,108,343,447,464,645,649] 。 这 项 工作 的 提出 
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大 部 分 是 由 于 手机 技术 的 发 展 和 支持 GPS 的 手机 的 硬件 逐渐 增强 。 因 此 ， 移 动 推荐 系统 
领域 5 中越 来 越 突出 。 最 早 的 工作 之 一 [ 沁 提 出 了 使 用 具有 GPS 功能 的 手机 的 数据 来 预测 
用 户 在 不 同位 置 上 移动 的 方法 。[654] 讨论 了 智能 手机 的 上 下 文 感知 推荐 。 [40] 提出 了 
使 用 协同 过 滤 的 移动 广告 推荐 系统 。 已 经 有 许多 旅游 指南 应 用 程序 ， 如 INTRIGUE™ 、 
GUIDEH56] 、MyMapH77] 、SPETAC3] 、MobiDENKEB18] | COMPASS, 、 Archeoguide[618] 
和 LISTENLs55 在 文献 中 被 提出 。 一 些 基于 位 置 的 推荐 系统 [s33'649] 使 用 混合 系统 来 执行 上 下 
文 感知 推荐 。Bohnert 等 人 在 [89] 中 使 用 用 户 访 问 各 种 位 置 的 模式 序列 来 预测 用 户 的 下 
一 个 位 置 。 他 们 还 研究 了 捕捉 用 户 兴趣 的 混合 的 基于 内 容 的 模型 是 如 何 影 响 推荐 系统 的 整 
体 有 效 性 的 。 对 内 容 的 增加 只 能 提供 有 限 的 改进 。[649] 的 工作 讨论 了 如 何 通过 组 合 内 容 
和 协同 系统 并 嵌入 社区 认可 来 处 理 位 置 感知 推荐 系统 的 冷 启动 。 


9.7 JA 


. 设计 一 种 使 用 贝 叶 斯 模型 来 进行 协同 过 滤 的 方法 ， 同 时 结合 时 间 衰 减 。 参 考 第 3 章 进行 协同 过 滤 所 使 
用 的 贝 叶 斯 算法 。 

2. 设计 在 分 解 过 程 中 包含 时 间 衰 减 的 潜在 因子 模型 。 

. 实现 time-SVD 十 十 算法 。 

. 假设 你 想 在 一 组 动作 集合 上 设计 一 个 阶 马尔 可 夫 模 型 ，| 3| ==n。 此 外 ,我 们 确保 在 大 小 为 〈k 十 1) 
的 窗口 中 没有 任何 重复 动作 。 假 设 我 们 不 保留 概率 为 0 的 任何 状态 或 边 ， 这 种 模型 中 的 最 大 状态 数 和 
转换 边 数 是 多 少 ? 

. 实现 一 个 序列 模式 挖掘 算法 来 进行 时 间 推 荐 。 你 有 足够 的 余地 为 你 的 算法 做 适当 的 设计 选择 。 

» 假设 你 有 一 个 大 型 日 志文 件 ， 其 中 包含 来 自 各 种 用 户 的 操作 序列 。 本 章 中 的 讨论 展示 了 如 何 使 用 基于 
物品 的 规则 进行 推荐 。 请 展示 如 何 使 用 基于 用 户 的 规则 来 设计 类 似 的 方法 。 你 认为 这 样 一 种 方法 在 实 
践 中 会 如 何 ? 

. 讨论 为 什么 R 树 可 能 不 像 金 字 塔 树 那 样 适合 协同 过 滤 的 偏好 位 置 技术 。 
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在 自然 界 中 ， 我 们 从 没 看 到 过 任何 孤立 的 东西 ， 而 是 一 切 都 与 其 之 前 的 、 旁 边 的 、 之 
上 的 和 之 下 的 东西 相关 联 。 
一 一 Johann Wolfgang von Goethe 


10.1 引言 


各 种 可 用 网 络 的 发 展 已 经 促成 了 许多 推荐 模式 的 形成 。 例 如 ， 网 络 本 身 就 是 一 个 大 型 
的 分 布 式 数据 库 ， 像 Google 这 样 的 搜索 引擎 可 以 被 认为 是 推荐 概念 的 以 关键 词 为 中 心 的 
变 体 。 事 实 上 ， 与 推荐 相关 文献 中 的 一 个 重要 论述 就 是 区 分 搜索 和 推荐 的 概念 。 虽 然 搜 索 
技术 也 向 用 户 推荐 内 容 ， 但 搜索 结果 通常 不 会 对 当前 用 户 进 行 个 性 化 处 理 。 由 于 追踪 大 量 
的 网 络 用 户 是 历史 性 难题 ， 所 以 这 种 缺乏 个 性 化 的 做 法 由 来 已 入。 然而， 近年 来 ， 出 现 了 
许多 个 性 化 的 搜索 概念 ， 可 以 基于 个 人 兴趣 将 网 页 推荐 给 用 户 。 许 多 搜索 引擎 提供 商 ， 如 
Google， 现 在 有 了 可 以 确定 个 性 化 结果 的 能 力 。 这 个 问题 与 对 使 用 了 个 性 化 偏好 的 网 络 中 
的 结 点 进行 排名 完全 相同 。 

在 许多 应 用 中 ， 网 络 已 经 成 为 无 处 不 在 的 建 模 工具 ， 如 社交 和 信息 网 络 。 因 此 ， 讨 论 
可 以 在 不 同 场景 下 被 推荐 的 网 络 中 的 各 种 结构 化 元 素 是 特别 有 用 的 。 结 构 化 推荐 的 每 一 种 
不 同 的 类 型 都 可 能 在 不 同 的 场景 中 具有 不 同 的 应 用 集 。 这 些 不 同 变 体 的 一 些 关 键 例子 如 下 : 

1) 按 权威 和 上 下 文 推 荐 结 点 : 在 这 种 情况 下 ， 结 点 的 质量 由 链 和 其 的 链接 判断 ， 结 
点 的 个 性 化 相关 性 由 其 上 下 文 判断 。 高 质量 的 结 点 有 许多 人 链 。 这 个 问题 与 搜索 引擎 问题 
密切 相关 。 一 个 主要 的 发 现 是 ， 传 统 的 在 这 种 引擎 中 的 搜索 概念 不 区 分 各 种 类 型 的 用 户 ， 
因此 不 能 对 特定 用 户 进行 个 性 化 设置 。 在 搜索 引擎 中 ， 网 页 (或 网 络 图 中 的 结 点 ) 均 根 据 
其 权威 和 内 容 进 行 排名 。 很 少 强 调 执行 搜索 的 用 户 的 身份 。 然 而 ， 像 个 性 化 PageRank 等 
概念 最 终 得 以 发 展 ， 可 以 将 结果 定制 为 各 种 兴趣 。 这 些 个 性 化 形式 通过 修改 具有 特定 上 下 
文 个 性 化 的 PageRank 的 传统 概念 ， 将 上 下 文 融入 排序 当中 。 如 下 一 章 所 述 ， 在 社交 标签 
设置 中 使 用 了 与 PageRank 密切 相关 的 FolkRank 等 概念 。 

2) 通过 示例 推荐 结 点 : 在 许多 推荐 应 用 中 ， 可 能 希望 推荐 与 其 他 示例 结 点 相似 的 结 
点 。 这 是 结 点 的 集合 分 类 (collective classification) 问题 。 有 趣 的 是 ， 个 性 化 PageRank 
经 常用 于 集合 分 类 的 问题 。 所 以 这 两 种 推荐 方式 是 密切 相关 的 。 这 样 的 应 用 在 一 个 信息 网 
络 中 也 可 能 是 有 用 的 ， 其 中 该 信息 网 络 由 用 户 和 其 他 一 些 可 能 被 标记 了 特定 属性 的 结 点 
构成 。 

3) 通过 影响 力 和 内 容 推 荐 结 点 : 在 许多 以 网 络 为 中 心 的 应 用 中 ， 用 户 可 能 会 传播 有 
关 各 种 类 型 产品 的 知识 。 这 个 问题 被 称 为 病毒 式 营销 。 在 这 些 情况 下 ， 商 家 正在 寻找 最 有 
可 能 传播 对 于 其 特定 产品 的 意见 的 用 户 。 在 主题 敏感 影响 分 析 中 ， 会 搜索 最 有 可 能 传播 特 
定 主题 的 用 户 。 影 响 力 分 析 的 问题 可 以 看 作 是 基于 用 户 影响 他 人 的 “病毒 ”潜力 以 及 他 们 
的 主题 特征 来 向 商家 推荐 用 户 。 

4) 推荐 链接 : 在 许多 社交 网 络 中 ， 如 脸 书 ， 为 了 社交 网 络 的 利益 而 增加 网 络 的 连接 
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性 。 因 此 ， 用 户 经 常 被 推荐 一 些 潜在 的 朋友 。 这 个 问题 相当 于 在 网 络 中 推荐 潜在 的 链接 。 
有 趣 的 是 ， 许 多 排序 方法 都 适用 于 链接 的 预测 。 许 多 矩阵 分 解法 也 适用 于 链接 预测 。 此 
外 ， 一 些 链 接 预 测 方法 用 于 集合 分 类 。 这 些 相互 关系 中 的 一 些 将 在 本 章 中 酌情 指出 。 

这 些 结构 化 推荐 方法 的 应 用 超出 了 社交 网 络 领 域 的 范围 。 这 种 结构 化 推荐 方法 可 以 用 
于 推荐 任何 系统 中 的 元 素 ， 可 以 将 其 作为 一 个 以 网 络 为 中 心 的 网 络 进行 建 模 。 示 例 可 能 包 
括 新 闻 、 博 客 帖子 或 其 他 可 用 网 络 的 内 容 。 

此 外 ， 即 使 是 传统 的 产品 ， 推 荐 问题 也 可 以 用 这 些 方法 来 解决 。 这 是 因为 任何 用 户 产 
品 推 荐 问题 都 可 以 用 用 户 一 物品 图 来 建 模 。 在 第 2 章 和 第 3 章 中 ， 针 对 此 类 产品 推荐 问题 ， 
我 们 提供 了 如 何 使 用 用 户 一 物品 图 的 具体 示例 。 下 一 章 将 详细 介绍 如 何 利用 社交 系统 中 各 
种 形式 的 内 容 来 增强 推荐 效果 。 虽 然 本 章 与 下 一 章 的 材料 密切 相关 ， 但 本 章 的 研究 更 侧重 
于 网 络 的 结构 化 方面 ， 而 不 明确 关注 社交 中 心 方面 ， 如 信任 或 用 户 标 答 行为。 此外， 本章 
讨论 的 方法 可 用 于 超过 社交 网 络 分 析 范 围 的 应 用 。 下 一 章 会 重点 介绍 改善 推荐 的 社交 感知 
方法 ， 不 论 这 些 建议 是 否 以 网 络 为 中 心 。 

本 章 组 织 结构 如 下 。10. 2 节 研 究 网 络 中 结 点 排序 的 问题 及 其 在 个 性 化 排序 应 用 中 的 
使 用 。10. 3 节 回 顾 了 集合 分 类 的 问题 及 其 在 各 种 形式 的 推荐 中 的 使 用 。10. 4 节 测 试 了 链 
接 预 测 的 问题 。 影 响 分 析 问 题 在 10. 5 节 进 行 了 研究 。 本 章 也 研究 了 话题 敏感 影响 分 析 问 
题 。10. 6 节 为 本 章 小 结 。 


10.2 排序 算法 


PageRank 算法 在 网 页 搜索 的 背景 下 被 首次 提出 。 该 算法 的 主要 目的 是 提高 搜索 质量 。 
由 于 网 页 允许 公开 发 布 ， 最 早 的 搜索 引擎 所 面临 的 一 个 问题 是 ， 使 用 关键 词 以 纯 内 容 为 中 
心 的 网 页 匹配 ， 其 排序 结果 的 质量 很 差 。 特 别 是 ， 用 户 可 以 经 常 在 网 页 上 发 布 垃圾 邮件 、 
误导 性 信息 或 其 他 不 正确 的 内 容 ， 纯 粹 以 内 容 为 中 心 的 匹配 无 法 区 分 不 同 质量 的 结果 。 因 
此 ， 需 要 一 种 机 制 来 确定 网 页 的 声誉 和 质量 。 这 通过 使 用 网 页 的 引用 结构 得 以 实现 。 当 一 
个 页 面 质量 很 高 时 ， 许 多 其 他 网 页 会 指向 它 。 引 用 可 以 在 逻辑 上 被 视 为 网 页 投票 。 虽 然 链 
人 页 面 的 数量 可 以 用 作 网 页 质量 的 粗略 指标 ， 但 它 并 不 完善 ， 因 为 它 不 能 解释 指向 该 页 面 
的 网 页 的 质量 。 为 了 提供 一 个 更 全 面 的 基于 引用 的 投票 ， 使 用 了 被 称 为 PageRank 的 算法 。 
PageRank 算法 以 递归 的 方式 推广 了 基于 引用 排序 的 概念 。 

虽然 PageRank 算法 不 是 一 个 直接 的 推荐 方法 ， 但 它 与 推荐 分 析 的 主题 密切 相关 。 
PageRank 的 许多 变 体 用 于 个 性 化 排序 机 制 。 这 是 因为 许多 推荐 的 设置 可 以 表示 为 链接 网 
络 ， 包括 传统 的 用 户 一 物品 推荐 场景 。 因 此 ， 本 节 将 探讨 搜索 和 推荐 这 两 个 密切 相关 的 问 
题 的 关系 以 及 PageRank 算法 在 众多 推荐 场景 中 的 应 用 。 首 先 ， 我 们 将 在 传统 的 网 页 排序 
的 背景 下 引入 一 般 的 PageRank 算法 。 


10.2.1 PageRank 


PageRank 算法 使 用 网 络 图 中 的 引用 (或 链接 ) 结构 来 模拟 结 点 的 重要 性 。 在 网 络 图 
的 情境 中 ， 结 点 对 应 于 网 页 ， 边 对 应 于 超 链接 。 其 基本 思想 是 ， 高 声誉 的 文档 更 有 可 能 被 
其 他 有 良好 声誉 的 网 页 所 引用 (或 链接 )。 同 样 ， 在 一 个 诸如 推 特 的 社交 网 络 中 ， 高 声誉 
的 用 户 很 可 能 被 其 他 有 良好 声誉 的 用 户 关注 。 为 了 进行 以 下 讨论 ， 我 们 将 假设 一 个 有 向 图 
(如 网 络 )， 尽 管 通过 两 个 有 向 边 蔡 换 每 个 无 向 边 ， 可 以 轻松 地 将 概念 扩展 到 无 向 图 。 对 于 
许多 推荐 应 用 来 说 ， 无 回 的 表示 通常 就 足够 了 。 
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使 用 网 络 图 上 的 随机 冲浪 模型 来 实现 页 面 排序 的 目标 。 考 虑 一 个 随机 的 冲浪 ， 其 通过 
选择 一 个 页 面 上 的 随机 链接 来 访问 网 络 上 的 随机 页 面 。 访 问 任何 特定 页 面 的 长 期 相对 频率 
明显 受到 其 链 入 页 面 数 量 的 影响 。 此 外 ， 如 果 一 个 页 面 被 其 他 经 常 被 访问 (或 有 高 声誉 ) 
的 页 面 链 入 ， 那 么 任何 页 面 的 长 期 访问 频率 将 会 更 高 。 换 句 话 说 ，PageRank 算法 根据 随 
机 冲浪 的 长 期 访问 频率 对 网 页 的 声誉 进行 建 模 。 这 个 长 期 频率 也 被 称 为 稳 态 概率 ， 并 且 该 
模型 也 被 称 为 随机 游 走 模型 。 

基本 的 随机 冲浪 模型 不 适用 于 所 有 的 可 能 的 图 拓扑 结构 。 一 个 关键 问题 是 某 些 网 页 可 
能 没有 出 链 ， 这 可 能 导致 随机 冲浪 陷 和 人 特定 的 结 点 中 。 事 实 上 ， 在 这 样 一 个 结 点 上 ， 甚 至 
没有 意义 去 定义 概率 转换 。 这 样 的 结 点 被 称 为 死 端 。 图 10- la 中 给 出 了 一 个 死 端 结 点 的 示 
例 。 显 然 ， 死 端 是 不 合 需要 的 ， 因 为 在 该 结 点 上 不 能 定义 PageRank 计算 的 转换 过 程 。 为 
了 解决 这 个 问题 ， 随 机 冲浪 模型 中 并 人 了 两 项 修改 。 第 一 个 修改 是 将 链接 从 死 端 结 点 (网 
页 ) 添加 到 所 有 结 点 (网页)， 包 括 自 身 的 自 循环 。 每 个 这 样 的 边 具 有 1/n 的 转换 概率 。 
这 不 能 完全 解决 问题 ， 因 为 死 端 也 可 以 在 结 点 组 上 定义 。 在 这 些 情况 下 ， 没有 从 一 组 结 点 
到 图 中 剩余 结 点 的 出 链 。 这 被 称 为 死 端 分 量 或 吸收 分 量 。 图 10-1b 给 出 了 死 端 分 量 的 图 解 。 

因为 网 络 连接 不 牢固 ， 所 以 死 端 分 量 经 常 出 现在 网 络 图 (和 其 他 网 络 ) 中 。 在 这 种 情 
况 下 ， 可 以 有 意义 地 定义 单个 结 点 的 转换 ， 但 是 稳 态 转换 将 被 困 在 这 些 死 端 分 量 中 。 所 有 
稳 态 概率 将 集中 在 死 端 分 量 中 ， 因 为 当 转 换 发 生 在 死 端 分 量 中 后 ， 可 能 没有 从 其 中 出 来 的 
转换 。 因 此 ， 只 要 死 端 分 量 引 存在 的 转换 的 可 能 性 极 小 ， 所 有 的 稳 态 概率 都 会 集中 在 这 些 
分 量 中 。 在 大 型 网 络 图 中 ， 死 端 分 量 不 一 定 是 流行 度 的 指标 ， 所 以 在 大 型 网 络 图 中 从 Pag- 
eRank 的 计算 的 角度 来 看 ， 这 种 情况 是 不 可 取 的 。 此 外 ， 在 这 种 情况 下 ， 各 种 死 端 分 量 的 
结 点 的 最 终 概率 分 布 不 是 唯一 的 ， 并 且 取 决 于 随机 游 走 的 起 始 状 态 。 通 过 观察 可 以 很 容易 
地 验证 ， 从 不 同 死 端 分 量 开始 的 随机 游 走 将 使 其 各 自 的 稳 态 分 布 集中 在 相应 的 分 量 内 。 

虽然 添加 额外 的 边 解决 了 死 端 结 点 的 问题 ， 但 是 需要 一 个 额外 的 步骤 来 解决 更 复杂 的 
死 端 分 量 问题 。 因 此 ， 除 了 这 些 边 的 添加 之 外 ， 还 要 在 随机 冲浪 模型 中 使 用 传递 或 重启 步 
又 。 此 步骤 定义 如 下 。 在 每 个 转换 中 ， 随 机 冲浪 可 以 跳 转 到 具有 概率 a 的 任意 一 个 页 面 ， 
或 者 以 (1 一 a) 的 概率 跟随 页 面 上 的 链接 之 一 。a 的 典型 值 为 0.1。 由 于 使 用 了 传递 ， 稳 
态 概率 变 为 唯一 的 ， 并 独立 于 起 始 状态 。a 的 值 也 可 以 被 看 作 平 渭 或 阻尼 概率 。 较 大 的 a 
值 通常 会 导致 不 同 页 面 的 稳 态 概率 变 得 更 均匀 。 例 如 ， 如 果 选 择 a 的 值 为 1， 则 访问 的 所 
有 页 面 将 具有 相同 的 稳 态 概率 。 

如 何 确定 稳 态 概率 ? 令 G 二 (N，A) 是 一 个 有 向 网 络 ， 其 中 结 点 对 应 于 页 面 ， 边 对 应 
于 超 链接 。 结 点 总 数 由 nn 表示。 假设 A 还 包括 从 死 端 结 点 到 所 有 其 他 结 点 所 添加 的 边 。 入 
射 到 i 上 的 结 点 集合 由 In( 引 表示 ， 并 且 结 点 i 的 出 链 的 端点 集 由 Out( 引 表示 。 结 点 i 处 的 
稳 态 概率 由 x( 引 表示 。 一 般 来 说 ， 一 次 网 页 浏览 的 转换 可 以 被 表示 为 一 条 马尔 可 夫 链 ， 其 
中 为 具有 个 结 点 的 网 络 图 定义 了 大 小 为 n Xn 的 转换 和 矩阵 了 P。 结 点 i 的 PageRank 值 等 于 
结 点 i 在 马尔 可 夫 链 模型 中 的 稳 态 概率 x(i)。 从 结 点 i 到 结 点 j 转换 的 概率 Sp; 被 定义 为 


1/ | Out(i) | 。 转 换 概率 的 例子 如 图 10-1 所 示 。 然 而 ， 这 些 转换 概率 并 不 涉及 传递 ， 将 在 


”正式 的 数学 处 理 方式 是 根据 隐 马 尔 可 夫 链 的 遍历 特征 来 表示 的 。 在 遍历 马尔 可 夫 链 中 ， 一 个 必要 的 要 求 是 可 
以 使 用 一 个 或 多 个 转换 序列 从 任何 其 他 状态 到 达 任 何 状态 。 这 种 情况 被 称 为 强 连接 。 这 里 提供 了 一 个 非 正式 
的 描述 ， 以 便于 理解 。 


加 ”在 诸如 书目 网 络 的 某 些 应 用 中 ， 边 (Gi, 力 可 以 具有 由 wy 表示 的 权重 。 在 这 种 情况 下 ， 转 换 概率 p; 被 定义 为 


Wij 
7 a 
D wy; 
jEOnti) 
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下 面 单独 解决 这 一 问题 2 。 





1/2 

增加 虚线 的 转换 
来 移 除 死 端 

a) 死 端 结 点 


10-1 对 于 不 同类 型 死 端 的 PageRank 计算 的 转换 概率 


我 们 来 测试 到 给 定 结 点 i 的 转换 。 结 点 i 的 稳 态 概 率 x (让 是 传递 到 它 的 概率 与 其 中 一 
个 人 链 结 点 的 概率 会 直接 转换 到 它 的 概率 之 和 。 传 人 结 点 的 概率 正好 是 a/n， 因 为 传递 发 
生 在 具有 概率 a 的 步骤 中 ， 并且 所 有 结 点 同样 都 可 能 是 传递 的 受益 者 。 转 移 到 结 点 i 的 概 


率 由 (1 一 a)。 》，x(j)，pi; 给 出 ， 作 为 来 自 不 同 链 入 结 点 的 转换 概率 之 和 。 因 此 ， 在 稳 态 


JE In) 
下 ， 转 换 到 结 点 i 的 概率 由 传递 和 转换 事件 的 概率 之 和 定义 : 
ni) =a/n+(—a)+ >) Qj) © dj (10-1) 
j€ Ini) 
例如 ， 图 10- 1a 中 结 点 2 的 公式 可 以 写作 如 下 : 
n(2) = a/4 + O —a) (x(1) 十 x(2)/4 十 x(3)/3 十 x(4)/2) 

每 个 结 点 都 会 有 一 个 这 样 的 方程 ， 因 此 以 矩阵 形式 书写 整个 方程 组 是 很 方便 的 。 令 元 一 
(x(1)…x(n))T 是 表示 所 有 结 点 的 稳 态 概率 的 维 列 向 量 ， 并 且 令 = 为 所 有 值 为 1 AY n HE 
列 向 量 。 方 程 组 可 以 以 矩阵 形式 重 写 如 下 : 

元 三 ae/7 十 (1 一 c)PI 元 (10-2) 
右 侧 的 第 一 项 对 应 于 传递 ， 第 二 项 对 应 于 来 自 元 一 个 人 链 结 点 的 直接 转换 。 另 外 ， 由 于 向 


量 元 表示 概率 ， 所 以 其 分 量 J) xi 之 和 必须 等 于 1 。 
i=l 


Yai =] (10-3) 


注意 ， 这 是 一 个 可 以 使 用 迁 代 法 很 容易 解决 的 线性 方程 组 。 该 算法 通过 初始 化 元 "一 z/m 
作为 开始 ， 并 通过 重复 以 下 迭代 步骤 从 元 2 导出 元 后 7 : 

TD Hge/n+ 1 —a) Phe” (10-4) 
BEA, eC? 的 项 通过 将 它们 缩放 为 1 来 归 一 化 。 这 些 步 又 被 重复 执行 直到 O A 
元 之 间 的 差 是 一 个 小 于 用 户 定 义 的 国人 值 的 向 量 。 这 种 方法 也 被 称 为 需 迭 代 法 。 


日 ”实现 这 一 目标 的 一 个 蔡 代 方法 是 通过 将 现 有 的 边 转 换 概率 乘 以 因子 (1 一 a) 来 修改 G， 然 后 将 a/n 加 到 G 中 的 
每 对 结 点 间 的 转换 概率 上 。 结 果 就 是 ，G 将 成 为 每 对 结 点 之 间 存 在 双向 边 的 有 向 团 。 这 种 强 连接 的 马尔 可 夫 
链 具 有 独特 的 稳 态 概率 。 所 得 到 的 图 可 以 被 视 为 一 条 马尔 可 夫 链 ， 而 不 必 单 独 考虑 转移 分 量 。 这 个 模型 等 同 
于 本 章 的 讨论 。 
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PageRank 值 可 以 表示 为 特征 值 为 1 的 随机 转移 矩阵 己 〈 的 修改 版 本 ) 的 最 大 左 特征 
向 量 的 半 个 分 量 。 对 随机 转移 矩阵 的 修改 直接 包含 了 在 转移 矩阵 中 的 重启 效果 ， 方 法 是 在 
每 对 结 点 之 间 添 加 “重启 动 ” 边 。 


10.2.2 个 性 化 PageRank 


个 性 化 PageRank 的 概念 在 网 页 推荐 系统 中 也 被 称 为 主题 敏感 PageRank。 虽 然 Page- 
Rank 是 根据 链接 结构 找到 流行 结 点 的 一 个 很 好 的 机 制 ， 但 它 对 于 寻找 与 特定 用 户 的 兴趣 
相 匹配 的 物品 几乎 没有 什么 用 。 个 性 化 PageRank 的 概念 旨 在 找到 流行 的 结 点 ， 这 些 结 点 
也 类 似 于 网 络 中 的 特定 结 点 。 例 如 ， 考 虑 诸如 Flickr 的 信息 网 络 ， 其 中 结 点 可 以 是 用 户 、 
图 像 描述 或 图 像 。 我 们 希望 利用 网 络 结构 来 向 特定 用 户 推 荐 网 络 中 的 流行 内 容 。 然 而 ,个 
性 化 地 将 流行 内 容 推 荐 给 当前 用 户 是 很 重要 的 。 那 么 我 们 如 何 推 荐 特定 图 像 或 特定 用 户 ， 
或 反之 亦 然 ? 这 里 的 关键 是 要 明白 ,传递 机 制 提供 了 一 种 向 特定 结 点 随机 游 走 的 方法 。 

这 种 方法 的 另 一 个 应 用 是 网 络 推荐 系统 ， 该 推荐 系统 在 排序 过 程 中 对 一 些 主题 给 予 了 
比 其 他 主题 更 多 的 权重 。 个 性 化 在 大 规模 商业 搜索 引擎 中 较 少 见 ， 而 更 常见 的 是 小 规模 的 
特定 网 站 的 搜索 应 用 。 通 常 ， 用 户 可 能 对 某 些 主题 的 组 合 更 感 兴趣 。 由 于 用 户 的 注册 ， 对 
这 种 兴趣 的 了 解 可 能 由 个 性 化 搜索 引擎 提供 。 例 如 ， 一 位 特定 的 用 户 可 能 对 汽车 的 主题 更 
感 兴趣 。 因 此 ， 当 对 该 用 户 的 查询 进行 响应 时 ， 我 们 期 望 对 与 汽车 相关 的 页 面 进行 更 高 的 
排序 。 这 也 可 以 视 为 排序 值 的 个 性 化 。 那 么 这 将 如 何 实现 呢 ? 

考虑 一 个 网 络 推荐 系统 ， 用 户 可 以 在 其 中 表达 对 特定 主题 的 兴趣 。 第 一 步 是 修改 基础 
主题 列表 ， 并 确定 每 个 主题 的 高 质量 页 面 样本 。 这 可 以 通过 使 用 诸如 (Open Directory 
Project) (ODPO 等 资源 来 实现 ， 其 可 以 为 每 个 主题 提供 一 个 主题 的 基本 列表 和 示例 网 页 。 
现在 修改 了 PageRank 的 公式 ， 因 此 只 能 在 网 页 文档 的 这 个 示例 集 上 而 不 是 在 网 页 文档 的 整 
个 空间 上 执行 传递 。 

Ses 为 每 个 页 面 的 一 元 n 维 个 性 化 ( 列 ) 向 量 。 如 果 该 页 面包 含 在 样本 集中 ， 则 a。 中 
的 项 取 值 为 1， 否 则 为 0。ep 中 的 非 零 项 的 数目 由 np 表示 。 然 后 ，PageRank 公式 (10-2) 可 
以 修改 如 下 : 

T = aep/np+(1—a) Pt (10-5) 
AY E FA A A A FEE ARES RR PS HEE PageRank 问题 。 选 择 性 传递 偏向 随机 游 走 ， 使 得 
样本 页 面 中 结构 化 位 置 的 页 面 排名 更 高 。 只 要 页 面 样本 是 网 络 图 不 同 (结构 ) 位 置 的 良好 
代表 ， 其 中 网 络 图 中 存在 具有 特定 主题 的 网 页 ， 则 这 种 方法 将 会 很 好 地 运行 。 因 此 ， 对 于 
每 个 不 同 的 主题 ， 可 以 预先 计算 和 存储 单独 的 PageRank 向 量 以 供 查询 使 用 。a 的 选择 调 
节 了 主题 标准 与 流行 标准 之 间 的 平衡 。 较 大 的 a 值 会 使 该 方法 更 具 主 题 敏感 ， 而 较 小 的 a 
值 将 使 该 方法 对 网 络 的 结构 更 加 敏感 。 

考虑 用 户 已 经 对 一 些 主题 的 特定 组 合 表 现 出 兴趣 的 情况 ， 如 运动 与 汽车 。 显 然 ， 可 能 
的 兴趣 组 合 的 数量 可 以 非常 大 ， 并 且 不 可 能 或 没 必 要 预先 存储 每 个 个 性 化 的 PageRank mj 
量 。 在 这 种 情况 下 ， 只 有 基本 主题 的 PageRank 向 量 会 被 计算 。 该 用 户 最 终 得 到 的 结果 被 
定义 为 特定 主题 的 PageRank 向 量 的 加 权 线 性 组 合 ， 其 中 权重 由 用 户 在 不 同 主题 中 指定 的 
兴趣 定义 。 


o P 的 左 特征 向 量 XX 是 满足 XP=4X 的 行 向 量 。 右 特征 向 量 了 是 满足 PY 二 XY HH. MRM, E 
右 特 征 向 量 不 相同 。 然 而 ， 特 征 值 总 是 相同 的 。 未 经 限定 的 “特征 向 量 ” 默 认 指 右 特征 向 量 。 
© http://www. dmoz. org 
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个 性 化 PageRank 方法 可 以 被 视 为 一 种 方法 ， 其 基于 结 点 对 于 重启 结 点 的 结构 相似 度 
和 结 点 对 于 其 他 结 点 的 绝对 连接 度 ， 向 结 点 提供 相似 度 分 数 。 对 这 些 因素 的 精确 重要 性 取 
决 于 a 的 值 。 然 而 ， 这 个 控制 是 有 限制 的 。 选 择 非常 大 的 a 值 ， 同 时 也 失去 了 该 方法 计算 
在 重启 结 点 适度 距离 上 的 结 点 相似 度 的 敏感 度 ， 只 有 重启 结 点 才能 接收 到 大 部 分 的 概率 。 
在 某 些 情况 下 ， 我 们 希望 以 更 有 意义 的 方式 消除 流行 程度 的 影响 ， 使 数字 的 量 只 反映 相似 
程度 。 减 少 流行 程度 的 影响 的 一 种 方法 是 执行 标准 的 PageRank， 并 从 个 性 化 的 PageRank 
中 将 其 减 去 。 通 过 这 样 做 ,排序 值 可 以 是 正 的 或 负 的 ， 以 反映 出 相对 相似 性 或 不 相似 性 。 
0 值 将 被 认为 是 盈亏 平衡 点 。 这 种 方法 与 FolkRank 方法 有 关 ，FolkRank 方法 通常 用 于 社 
交 标 签 应 用 (参见 第 11 章 11. 4. 4.2 节 )。 


10.2.3 基于 近邻 的 方法 应 用 


值得 注意 的 是 ， 个 性 化 PageRank 方法 的 传递 机 制 增加 了 在 结构 上 更 接近 执行 重启 结 
点 的 结 点 的 排名 。 该 属性 在 定义 网 络 中 结 点 的 近邻 时 特别 有 用 。 当 使 用 个 性 化 PageRank 
算法 时 ， 返 回 的 近邻 在 它们 的 引用 排序 上 的 质量 也 将 更 高 。 质 量 与 局 部 特异 性 之 间 的 权衡 
可 通过 修改 重启 概率 来 调节 。 近 邻 发 现 的 基本 问题 如 下 : 

给 定 图 G= 王 (N，A) 的 目标 结 点 加 和 结 点 SGN 的 子 集 ， 按 照 与 io 相似 度 的 顺序 对 S 

中 的 结 点 进行 排序 。 
这 样 的 一 个 查询 在 推荐 系统 中 非常 有 用 ， 其 中 用 户 和 物品 以 偏好 的 二 分 图 形式 排 布 ， 其 中 结 
点 对 应 于 用 户 和 物品 ， 边 对 应 于 偏好 。 结 点 a 可 以 对 应 于 一 个 物品 结 点 ， 并 且 和 集合 S 可 以 对 
应 于 用 户 结 点 。 或 者 ， 结 点 ia 可 以 对 应 于 一 个 用 户 结 点 ,集合 S 可 以 对 应 于 物品 结 点 。 使 用 
个 性 化 PageRank 方法 将 在 本 章 的 后 面部 分 和 下 一 章 中 讨论 。 推 荐 系统 与 搜索 密切 相关 ， 因 
为 推荐 系统 也 对 目标 对 象 进行 排序 ,但 是 需要 在 考虑 用 户 偏好 的 情况 下 进行 。 

这 个 问题 可 以 看 作 是 话题 敏感 PageRank 的 一 个 极限 情况 ， 其 中 对 单个 结 点 为 执行 传递 。 
因此 ， 个 性 化 PageRank 的 公式 (10-5) 可 以 通过 使 用 传递 向 量 ep =e, 直接 适用 于 此 ， 该 向 
量 为 一 个 全 0 的 向 量 ， 除 了 对 应 于 结 点 io 的 单个 1 之 外 。 此 外 ， 此 情况 下 ny 的 值 设置 为 1。 

元 二 aogvy 十 (1 一 c)PT 元 (10-6) 
上 述 等 式 的 解决 方案 将 为 丸 结构 位 置 中 的 结 点 提供 较 高 的 排名 值 。 相 似 性 的 这 种 定义 是 不 
对 称 的 ， 因 为 从 查询 结 点 i 开始 分 配给 结 点 7 的 相似 度 值 不 同 于 从 查询 结 点 7 开始 分 配给 
结 点 i 的 相似 度 值 。 这 种 非 对 称 的 相似 性 度量 适用 于 以 查询 为 中 心 的 应 用 程序 ， 如 搜索 引 
擎 和 推荐 系统 。 在 典型 的 协同 过 滤 应 用 中 ， 会 尝试 确定 目标 用 户 或 物品 的 近邻 。 在 这 些 近 
邻 被 发 现 之 后 ， 可 以 根据 这 些 结 点 的 内 容 属性 来 提供 推荐 。 这 种 方法 可 以 用 于 在 传统 社交 
网 络 中 进行 推荐 ， 或 者 用 于 在 传统 协同 过 滤 应 用 的 网 络 模型 中 查找 近邻 。 下 面 我 们 来 讨论 
这 两 种 情况 。 如 上 一 节 末 尾 所 述 ， 人 们 可 以 通过 从 个 性 化 PageRank 计算 中 减 去 无 偏差 的 
PageRank 值 来 消除 与 流行 度 有 关 的 影响 (如 果 需 要 )。 这 种 方法 ， 也 称 FolkRank， 也 在 
第 11 章 11. 4. 4. 2 节 中 有 更 详细 的 讨论 。 

10.2.3.1 社交 网 络 推荐 

考虑 基础 网 络 是 社交 网 络 的 情况 ， 其 中 用 户 明 确 地 指定 了 兴趣 ， 而 链接 代表 友谊 关 
系 。 在 这 种 情况 下 ， 为 了 达到 推荐 的 目的 ， 可 能 需要 利用 用 户 的 近邻 的 资料 。 可 以 使 用 个 
性 化 的 PageRank 算法 在 社交 网 络 中 发 现 一 个 用 户 的 近邻 ， 该 算法 在 该 用 户 结 点 处 重新 启 
动 。 可 以 根据 指定 的 关键 词 、 喜 欢 或 明确 指定 的 评分 来 检索 近邻 的 社交 资料 。 可 以 聚合 目 
标 结 点 附近 的 社交 资料 ， 并 且 可 以 将 这 些 资料 中 最 受 欢 迎 的 物品 推荐 给 目标 结 点 。 因 此 ， 
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这 种 方法 可 以 被 看 作 是 一 种 混合 的 推荐 系统 ， 其 中 的 结构 化 数据 用 于 确定 近邻 ， 而 用 户 指 
定 的 兴趣 用 于 做 出 最 终 的 推荐 。 

这 种 方法 应 用 了 社交 网 络 中 的 同 质 性 概念 。 基 本 思想 是 社交 网 络 中 的 连接 在 一 起 的 用 
户 通常 具有 相似 的 属性 。 因 此 ， 可 以 利用 用 户 近 邻 的 属性 、 资 料 和 评分 来 做 推荐 。 这 个 问 
题 与 集合 分 类 问题 密切 相关 ， 这 在 本 章 10. 3 节 中 有 所 讨论 。 在 集合 分 类 中 ， 使 用 机 器 学 
习 模 型 实现 了 相同 的 目标 。 有 趣 的 是 ， 随 机 游 走 算法 是 集合 分 类 模型 中 最 常用 的 方法 之 
一 。 这 是 因为 个 性 化 PageRank 方法 天 生 就 是 被 设计 用 于 查找 与 网 络 中 预先 指定 的 结 点 的 
类 似 结 点 。 这 些 预先 指定 的 结 点 是 集合 分 类 算法 中 的 训练 数据 。 

10. 2. 3. 2 ” 异 构 社 交 媒 体 中 的 个 性 化 

个 性 化 PageRank 方法 可 用 于 确定 与 网 络 中 的 特定 结 点 或 查询 相关 的 流行 内 容 。 这 种 
情况 在 各 种 形式 的 内 容 推荐 、 产 品 推荐 或 问答 系统 的 情境 中 是 很 常见 的 ， 在 这 些 情境 中 ， 
一 条 查询 的 相关 结 点 自然 地 嵌入 在 一 个 链接 的 网 络 结构 中 D6'81,602,640,663] 。 在 异 构 社 交 媒 
体 中 ， 相 同 的 网 络 可 能 包 仿 用户、 媒体 内容 和 文字 描述 。 这 种 情况 的 一 个 例子 是 Flickr 网 
络 [?? 中 ， 其 中 用 户 、 结 点 和 文本 内 容 与 各 种 类 型 的 链接 相连 。 图 10-2 中 展示 了 一 个 具有 文 
本 、 用 户 和 图 像 的 异 构 社 交 网 络 的 概念 图 。 个 性 化 PageRank 方法 可 用 于 确定 与 特定 查询 
和 用 户 相 关 的 高 排名 的 结 点 。 这 些 方 法 的 主要 思想 是 ， 高 质量 的 用 户 和 内 容 在 网 络 结构 中 
会 自然 地 连接 在 一 起 。 这 个 概念 类 似 于 PageRank 算法 所 使 用 的 原理 。 因 此 ， 通 过 使 用 底 
层 连 接 结 构 的 互 增 强 的 性 质 ， 可 以 同时 发 现 相 关 用 户 和 内 容 。 同 时 ， 由 于 结果 可 能 会 针对 
特定 用 户 或 查询 进行 调整 ， 因 此 需要 使 用 个 性 化 排序 法 。 需 要 着 重 注意 的 是 ， 对 这 种 网 络 
的 查询 可 以 是 通用 的 ， 并 且 可 以 包括 社交 (角色)、 关 键 词 和 内 容 信 息 的 任意 组 合 。 同 样 ， 

[317] 也 可 以 从 这 些 不 同 模式 中 的 任何 一 个 或 多 个 ) 来 提供 推荐 。 





图 10-2 包含 用 户 、 图 像 和 文本 的 异 构 社交 媒体 网 络 


一 个 被 称 为 SocialRank 的 异 构 排 序 方法 ." 引 被 设计 用 来 响应 用 户 查 询 的 个 性 化 推荐 。 
例如 ， 考 虑 用 户 在 社交 媒体 网 络 (如 Flickr) 中 输入 关键 词 “ 鸟 ”的 场景 ,目的 是 为 了 确 
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定 其 感 兴趣 的 图 像 。 个 性 化 PageRank 机 制 可 以 用 于 这 种 情况 中 ， 其 包含 该 关键 词 的 文本 
结 点 被 给 予 了 更 大 的 权重 以 达到 传递 的 目的 。 此 外 ， 如 果 需 要 ， 也 可 以 为 特定 的 用 户 结 点 
分 配 更 大 的 权重 ， 以 便 在 结 点 附近 偏 移 随机 游 走 。 传 递 概率 a 的 选择 调节 了 给 予 在 个 性 化 
过 程 的 重要 度 和 网 络 中 特定 结 点 的 基于 引用 的 流行 度 之 间 的 权衡 。 

在 异 构 网 络 中 使 用 该 方法 的 主要 挑战 是 ， 如 果 存 在 明显 较 大 数量 的 结 点 ， 则 一 个 网 络 
的 特定 模式 例如， 用 户 、 图 像 或 文本 ) 可 以 压倒 性 地 控制 整个 排序 过 程 。 这 在 许多 实际 
设置 中 特别 常见 。 因 此 ， 以 每 种 模式 从 其 他 模式 获取 提示 的 方式 执行 排序 过 程 是 很 重要 
的 ， 但 是 每 类 对 象 的 排序 过 程 都 是 独自 分 开 进 行 的 。 因 此 ， 在 [602] 中 使 用 一 种 迭代 的 
方法 ， 其 中 在 每 种 模式 中 执行 单独 的 排序 过 程 ， 然 后 使 用 来 自 其 他 模式 的 排名 来 修改 每 种 
模式 的 下 一 次 迭代 中 的 相似 矩阵 。 因 此， 该 方法 开始 于 在 每 个 模式 中 构造 结 点 到 结 点 的 相 
似 矩 阵 ， 并 使 用 以 下 两 步 进行 迭代 并 直到 收敛: 

1) 分 别 使 用 PageRank 在 每 种 模式 〈 例 如 ， 文 本 、 图 像 、 角 色 ) 中 的 相似 矩阵 上 创建 
每 个 结 点 的 排名 。 

2) 使 用 排名 来 重新 调整 相似 矩阵 。 如 果 一 对 结 点 在 不 同 模式 下 都 与 相同 的 结 点 或 高 
度 互 连通 的 高 排名 结 点 相连 ， 那 么 这 对 结 点 之 间 的 相似 度 就 会 增加 。 

读者 应 参考 [602] 第 二 步 中 关于 重新 调整 相似 矩阵 的 细节 。[602] 已 经 展示 了 这 种 
方法 可 以 通过 更 加 重视 潜在 的 社交 线索 来 产生 个 性 化 的 排序 结果 。 

10.2.3.3 传统 的 协同 过 滤 

个 性 化 PageRank 方法 还 可 用 于 在 传统 协同 过 滤 应 用 程序 中 发 现 用 户 一 物品 图 或 用 户 一 
用 户 图 中 的 近邻 。 在 第 2 章 2.7 节 中 讨论 了 对 图 模型 在 传统 协同 过 滤 应 用 中 的 使 用 。 根 据 
评分 矩阵 中 指定 的 元 素来 构建 无 向 的 用 户 一 物品 图 。 第 2 章 的 例子 如 图 10-3 所 示 。 通 过 从 
给 定 用 户 开始 执行 的 随机 游 走 ， 可 以 发 现 其 附近 的 其 他 用 户 。 这 是 个 性 化 PageRank 方法 
的 直接 应 用 。 如 果 需 要 ， 可 以 减 去 结 点 的 无 偏差 的 PageRank， 以 消除 上 述 讨论 中 的 流行 
度 所 造成 的 影响 。 在 发 现 用 户 近邻 之 后 ， 可 以 使 用 近邻 的 已 知 评分 进行 预测 。 第 2 章 2.7 
节 更 详细 地 讨论 了 从 评分 矩阵 来 构建 用 户 -物品 图 的 方法 。 





b) 特 定 评分 的 用 户 -物品 图 


图 10-3 评分 矩阵 和 对 应 的 用 户 一 物品 图 (回顾 第 2 章 的 图 2- 3) 


除了 用 户 一 物品 图 ， 还 可 以 使 用 用 户 一 用 户 图 或 物品 一 物品 图 。 在 下 文中 ， 我 们 将 描述 
物品 一 物品 图 的 使 用 。 其 与 用 户 一 用 户 图 的 情况 类 似 。 物 品 一 物品 图 也 被 称 为 关联 图 [33 ， 
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因为 它 定 义 了 物品 之 间 的 关联 。 在 这 种 情况 下 ， 构 造 加 权 的 有 向 网 络 G=C(N, A), 其 中 NN 
中 的 每 个 结 点 对 应 于 一 个 物品 ， 并 且 A 中 的 每 条 边 对 应 于 物品 之 间 的 关系 。 权 重 wi 与 每 条 
边 G, j) 相关 联 。 如 果 物 品 i 和 j 已 被 至 少 一 位 用 户 评分 ， 则 网 络 中 存在 有 向 边 G, j) 和 
G. dD. 否则 ， 绪 点 i 和 j 之 间 不 存在 边 。 然 而 ， 有 向 网 络 是 不 对 称 的 ， 因 为 边 G, j) 的 权 
重 不 一 定 与 边 G, Ò 的 权重 相同 。 令 U; 是 对 物品 i 指定 评分 的 用 户 集合 ，U; 是 对 物品 7 指 
定 评分 的 用 户 集合 。 边 G, 7) 的 权重 设置 如 下 。 首 先 , HA G, D 的 权重 ww 设 为 
|UiNU;|。 然 后， 边 的 权重 被 归 一 化 ， 这 样 使 得 结 点 的 出 边 的 权重 之 和 等 于 1。 这 个 归 一 
化 步骤 会 导致 不 对 称 的 权重 ， 因 为 权重 wy 和 wj;; 中 的 每 一 个 都 除 以 了 不 同 的 量 。 该 结果 在 
一 个 图 中 ， 其 中 边 的 权重 对 应 于 随机 游 走 的 概率 。 图 10- 4 中 示 出 了 一 个 评分 矩阵 的 关联 
图 的 例子 。 很 明显 ， 由 于 对 转换 概率 的 权重 进行 缩放 ， 经 过 归 一 化 的 关联 图 的 权重 不 是 对 
称 的 。 此 外 ， 值 得 注意 的 是 ， 在 关联 图 的 构造 中 没有 使 用 评分 值 。 而 仅仅 使 用 了 两 个 物品 
之 间 相 互 指定 的 共同 评分 的 数量 。 有 时 我 们 不 希望 在 创建 关联 图 中 忽略 掉 评 分 。 当 然 ， 也 
可 以 以 其 他 方式 定义 关联 图 ， 例 如 使 用 余弦 函数 ， 在 其 中 也 使 用 了 评分 。 





b) 未 归 一 化 的 关联 图 co) 归 一 化 的 关联 图 
图 10-4 评分 矩阵 和 它 的 关联 图 (回顾 第 2 章 的 图 2- 5) 


可 以 使 用 各 种 个 性 化 的 PageRank 方法 来 执行 推荐 。 以 下 两 种 方法 是 最 常用 的 : 

D 为 了 确定 相关 的 近邻 物品 ， 可 以 在 一 个 特定 物品 结 点 上 重新 启动 一 个 随机 游 走 。 
传统 的 基于 物品 的 近邻 算法 (参见 第 2 章 2. 3.2 节 ) 可 用 于 预测 该 物品 的 评分 。 

2) 还 可 以 使 用 被 称 为 ItemRank 的 方法 直接 进行 推荐 。 在 这 种 情况 下 ，PageRank 偏 
差 向 量 会 进一步 受到 用 户 对 各 种 物品 给 出 的 评分 的 影响 。 对 于 每 位 用 户 i， 使 用 一 个 不 同 
的 PageRank 重启 向 量 。 因 此 ，PageRank 的 方程 组 特定 于 用 户 i m m 次 解 该 方程 组 ， 
以 确定 所 有 用 户 的 偏好 。 然 而 实际 上 通常 希望 为 指定 的 用 户 做 出 推荐 ; 因此 ， 方程 组 内需 
要 解 一 次 。 对 于 关联 图 中 的 每 个 结 点 (物品 );， 重 启 概 率 被 设置 为 与 用 户 i 对 物品 7 的 评 
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分 三 成 比例 。 在 不 同 结 点 上 的 PageRank 值 会 产生 用 户 i 对 每 个 物品 的 偏好 。 返 回 前 个 
值 作为 相应 的 推荐 结果 。 

对 ItemRank 方法 的 主要 批评 是 ， 其 仍然 重视 那些 通过 重启 用 户 已 指定 评分 的 每 个 结 
点 的 得 分 很 差 的 结 点 。 一 般 来 说 ， 只 有 在 用 户 提 供 了 正 评分 而 不 是 用 户 同 时 提供 了 正和 负 
评分 的 结 点 上 重新 启动 才 有 意义 。 排 序 方法 在 一 元 评分 的 背景 下 特别 有 效 ， 其 中 有 一 种 机 
制 来 指定 一 件 物品 的 喜好 ， 但 没有 可 以 指定 不 喜欢 的 机 制 。 在 这 种 情况 下 ，ItemRank F 
法 将 会 非常 有 效 。 


10.2.4 SimRank 


在 某 些 应 用 中 ， 需 要 结 点 之 间 的 对 称 成 对 相似 性 。 虽 然 可 以 通过 反 向 平均 两 个 敏感 主 
题 的 PageRank 值 来 创建 一 个 对 称 的 方法 ， 但 SimRank 方法 提供 了 一 个 优雅 直观 的 解决 方 
案 。 该 方法 可 用 于 确定 特定 查询 结 点 的 有 声誉 的 近邻 。SimRank 的 概念 被 定义 为 计算 结 点 
之 间 的 结构 相似 性 。SimRank 确定 了 结 点 之 间 的 对 称 相似 性 。 换 句 话 说， 结 点 i 和 j 之 间 
HAWES) 和 i 之 间 的 相似 度 是 相同 的 。 显 然 ， 这 种 方法 只 适用 于 无 向 网 络 。 

SimRank 方法 的 工作 原理 如 下 。 + nO KR i 的 人 链 结 点 。SimRank 方程 可 以 自然 
地 以 递归 的 方式 定义 如 下 : 

; JA Ç : 
SimRank (i,j) RTV (10-7) 
这 里 的 C 是 (0，1) 中 的 一 个 常数 ， 其 可 以 看 作 是 递归 的 一 种 衰减 率 。 作 为 边界 条 件 ， 当 i=j 
时 ，SimRank(i，j) 的 值 被 设置 为 1。 当 i 或 j 没有 入 链 结 点 时 ，SimRank(i，7) 的 值 被 设置 
为 0。 为 了 计算 SimRank， 使 用 迭代 的 方法 。 如 果 i 二 =;，SimRank(i，j) 的 值 被 初始 化 为 1， 
否则 为 0。 该 算法 随后 更 新 所 有 结 点 对 之 间 的 SimRank 值 ， 迭 代 地 使 用 公式 (10- 7) 直到 达 
到 收敛 为 止 。 

SimRank 的 概念 在 随机 游 走 方面 有 一 个 有 趣 的 直观 解释 。 考 虑 两 个 随机 冲浪 ， 从 结 点 
i 和 结 点 7 向 后 遍历 直到 它们 相遇 。 它 们 中 的 每 一 个 采取 的 步 数 是 随机 变量 L(i，j)。 然 
后 ，SimRank(i，j) 可 以 被 证 明 为 等 于 Cr 的 期 望 值 。 衰减 常 量 C 用 于 将 长 度 为 7 的 随 
机 行走 映射 到 相似 度 值 C' 上 。 请 注意 ， 由 于 C<1， 较 小 的 距离 将 导致 更 高 的 相似 度 ， 较 
大 的 距离 将 导致 较 低 的 相似 度 。 

SimRank 方法 的 一 个 缺点 是 从 每 个 用 户 到 公共 结 点 的 路 径 必须 具有 相同 的 长 度 。 因 此 ， 
当 到 公共 结 点 不 存在 长 度 相 同 的 路 径 时 ， 两 个 直接 相连 的 结 点 之 间 的 SimRank 值 可 能 为 0。 
当 在 一 对 相连 结 点 之 间 仅 出 现 奇数 长 度 的 路 径 时 ， 这 才 
可 能 发 生 。 例 如 ， 在 图 10-5 中 ， 结 点 A AB 仅 通 过 长 
度 为 3 的 路 径 相 连 。 因 此 ， 即 使 这 些 结 点 连接 良好 ， 
结 点 A 和 结 点 B 之 间 的 SimRank 值 始终 为 0。 另 一 方 
面 ， 即 使 结 点 AMC 没有 很 好 地 连接 ,， BAA MC 
之 间 的 SimRank 值 也 不 是 0。 因 此 ， 了 人 解 不 适用 Sim- 
Rank 方法 情况 很 重要 9 。 例 如 ， 一 个 用 户 和 物品 结 点 
之 间 的 SimRank 值 在 二 分 的 用 户 一 物品 图 中 将 始终 为 ”图 10-5 SimRank 的 一 个 不 理想 情况 


日 ”可 以 通过 进行 微小 的 修改 来 在 一 定 程度 上 改善 这 个 问题 ， 如 对 图 添加 自 循环 。 然而， 这 种 方法 不 是 原始 Sim- 


Rank 算法 的 正式 部 分 。 
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0。 这 是 因为 用 户 和 物品 结 点 之 间 的 所 有 路 径 都 是 奇数 长 度 。 另 外 ，SimRank 方法 可 用 于 于 
有 效 地 计算 用 户 对 之 间或 物品 对 之 间 的 相似 度 。 因 此 ， 通 过 计算 用 户 同类 群体 或 物品 同类 
群体 ， 该 方法 可 以 在 传统 协同 过 滤 应 用 中 的 基于 近邻 的 方法 中 使 用 。 


10.2.5 搜索 与 推荐 的 关系 


本 节 的 讨论 展示 了 搜索 和 推荐 的 两 个 问题 之 间 的 密切 关系 。 这 两 个 问题 的 主要 区 别 在 
于 个 性 化 方面 。 当 用 户 在 Google 搜索 引擎 上 搜索 文档 时 ， 他 们 不 一 定 会 期 望 找到 根据 自 
已 喜好 而 量 身 定 制 的 结果 。 他 们 唯一 的 希望 是 看 到 为 搜索 短语 而 量 身 定制 的 高 质量 内 容 。 
然而 ， 在 个 性 化 搜索 应 用 中 ， 用 户 期 望 发 现 他 们 将 会 喜欢 的 新 内 容 。 一 些 应 用 程序 ， 如 
Google 新 闻 ， 都 有 个 性 化 和 非 个 性 化 搜索 两 个 版 本 。 主 要 区 别 在 于 后 者 与 以 前 的 用 户 行 
为 无 关 ， 而 前 者 直接 将 用 户 兴趣 纳入 搜索 过 程 中 。 然 而 即使 在 个 性 化 应 用 中 ， 搜 索 算法 的 
目标 也 是 被 期 望 的 。 例 如 ， 搜 索 结果 相关 性 和 质量 在 这 两 种 情况 下 都 很 重要 。 这 就 是 为 什 
么 在 排序 过 程 中 的 两 种 情况 下 ， 需 要 使 用 随机 游 走 算法 的 许多 变 体 的 原因 。 事 实 上 ， 近 年 
来 ， 搜 索 和 推荐 的 问题 越 来 越 一 体 化 。 例 如 ，Google 的 搜索 结果 可 能 通常 取决 于 用 户 的 

322| ”位置 或 浏览 历史 记录 ， 具 体 取 决 于 9 其 浏览 器 的 设置 或 Google 账户 的 登录 状态 。 


10.3 使 用 集合 分 类 的 推荐 


集合 分 类 法 对 于 将 内 容纳 入 推荐 过 程 特别 有 效 。 例 如 ， 考 虑 一 个 社交 网 络 应 用 的 情 
况 ， 其 中 高 尔 夫 设 备 制造 商 希望 确定 对 “高 尔 夫 ” 感 兴趣 的 所 有 个 人 。 假 设 制造 商 可 能 已 
经 有 一 些 对 高 尔 夫 感 兴趣 的 个 体 的 样 例 。 这 可 以 通过 社交 网 络 中 的 一 些 机 制 来 实现 ， 例 如 
利用 用 户 的 画像 ， 或 者 是 脸 书 上 与 高 尔 夫 相 关 的 帖子 中 点 “喜欢 ”按钮 的 信息 。 此 外 ， 在 
某 些 情况 下 ， 如 果 客 户 的 反馈 是 可 用 的 ， 则 制造 商 是 可 以 拥有 网 络 中 的 对 各 种 结 点 喜欢 或 
不 喜欢 的 信息 的 。 可 以 使 用 标签 来 指定 网 络 中 的 这 些 特定 角色 的 类 别 。 因 此 ， 结 点 的 子 集 
与 标签 相关 联 。 需 要 使 用 这 些 标 签 作 为 训练 数据 来 确定 未 被 指定 的 其 他 结 点 的 标签 。 假 设 
对 于 标记 结 点 ， 标 签 的 索引 来 自 (1…r}。 与 协同 过 滤 问 题 一 样 ， 这 也 是 一 个 不 完整 的 数 
据 估 计 问 题 ， 只 是 它 是 在 网 络 结构 的 上 下 文中 完成 的 。 

解决 这 个 问题 的 方法 取决 于 同 质 性 的 概念 。 这 个 概念 可 以 被 看 作 是 使 用 了 近邻 的 社交 
网 络 模 拟 。 这 种 模式 的 解决 方案 在 很 大 程度 上 取决 于 同 质 性 的 概念 。 由 于 具有 相似 属性 的 
结 点 通常 是 连接 在 一 起 的 ， 因 此 假设 结 点 标签 也 是 如 此 。 这 个 问题 的 一 个 简单 的 解决 方案 
是 检查 在 一 个 给 定 结 点 附近 的 个 标记 结 点 并 报告 大 多 数 标 签 。 实 际 上 ， 这 种 方法 是 最 近 
邻 分 类 器 的 网 络 模 拟 。 然 而 ， 由 于 结 点 标签 的 稀 玖 性 ， 这 种 方法 通常 在 集合 分 类 中 是 不 可 
行 的 。 图 10-6 给 出 了 一 个 网 络 的 示例 ， 其 中 两 个 类 别 被 标记 为 A 和 已 。 剩 下 的 结 点 是 未 
被 标记 的 。 对 于 图 10-6 中 的 测试 结 点 来 说 ， 很 明显 ， 它 一 般 更 接近 网 络 结构 中 A 的 实例 ， 
但 并 没有 与 测试 实例 相连 的 未 标记 结 点 。 因 此 ， 
标签 稀 玖 性 的 问题 出 现在 基于 网 络 的 预测 的 情 
境 中 ， 就 像 与 在 基于 评分 的 数据 中 情况 一 样 。 
如 何 解 决 这 些 稀 玖 问题 ? 为 了 处 理 稀 玖 性 ,不 
仅 要 使 用 与 标记 结 点 的 直接 连接 ， 还 要 使 用 通 

过 未 标记 结 点 的 间接 连接 。 在 本 章 中 ， 我 们 将 简 图 10-6 在 集合 分 类 中 标注 稀疏 问题 
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要 讨论 两 种 算法 ， 其 中 之 一 是 迭代 分 类 算法 ， 男 一 种 是 基于 随机 游 走 的 方法 。 


10.3.1 和 迭代 分 类 算法 


迭代 分 类 算法 ICA) 是 文献 记载 中 最 早 的 分 类 算法 之 一 ， 且 已 被 应 用 于 各 种 各 样 的 数 
据 域 。 考 虑 从 一 个 (无 向 ) 网 络 G=CN，A) ， 其 中 类 标签 属于 (Ler) FAW G, PEA 
与 权重 wy 相 关联。 此 外 ， 内 容 X; 可 以 在 结 点 i 处 以 多 维特 征 向 量 的 形式 存在 。 结 点 总 数 
由 表示， 其 中 结 点 是 未 标记 的 测试 结 点 。 

ICA 算法 的 一 个 重要 步骤 是 除了 Xi 中 可 用 的 内 容 特征 之 外 ， 还 派生 出 一 组 链接 特征 。 
最 重要 的 链接 特征 对 应 于 结 点 近邻 中 类 的 分 布 。 因 此 ， 为 每 个 类 生成 一 个 特征 ， 其 中 包含 
属于 该 类 的 事件 结 点 的 一 部 分 。 对 于 每 个 结 点 i， 其 相 邻 结 点 7 用 wy 来 加 权 ， 以 计算 其 相 
关 类 别 的 信誉 。 原 则 上 ， 还 可 以 基于 图 的 结构 化 属性 得 出 其 他 的 链接 特征 ， 例 如 结 点 的 
度 、PageRank 值 、 涉 及 结 点 的 闭合 三 角形 数量 或 连接 特征 。 这 种 链接 特征 可 以 通过 对 基 
于 对 网 络 数据 集 的 特定 应 用 的 理解 而 得 到 。 

基本 和 迭代 分 类 算法 被 构造 为 一 个 元 算法 。 在 一 个 迭代 框架 内 使 用 一 个 基本 分 类 器 .4。 
许多 不 同 的 基本 分 类 器 已 被 用 于 不 同 的 实现 中 ， 例 如 朴素 贝 叶 斯 分 类 器 、 逻 辑 回归 分 类 器 
和 近邻 投票 分 类 器 。 主 要 的 需求 是 这 些 分 类 器 应 该 能 够 输出 一 个 数字 分 数 来 量化 一 个 结 点 
属于 特定 类 的 可 能 性 。 虽 然 框架 独立 于 分 类 器 的 特定 选择 ， 但 朴素 贝 叶 斯 分 类 器 的 使 用 是 
特别 常见 的 ， 因 为 它 的 数值 分 数 可 以 作为 概率 的 解释 。 因 此 ， 以 下 的 讨论 将 假定 算法 .4 被 
实例 化 为 朴素 贝 叶 斯 分 类 器 。 

链接 和 内 容 特征 用 于 训练 朴素 贝 叶 斯 分 类 器 。 对 于 许多 结 点 来 说 ， 难 以 健壮 地 估计 重 
要 的 特定 类 别 的 特征 ， 例 如 在 其 近邻 中 不 同类 别 的 部 分 存在 。 这 是 标签 稀疏 的 直接 结果 ， 
它 使 得 对 这 些 结 点 的 类 预测 变 得 不 可 靠 。 因 此 ， 和 迭代 方法 用 于 扩展 训练 数据 集 。 在 每 次 迭 
代 中 ，n./T (测试 ) 结 点 标签 通过 该 方法 “确定 ”>， 其 中 工 是 一 个 用 来 控制 最 大 和 迭代 次 数 
的 用 户 自 定义 参数 。 选 择 贝 叶 斯 分 类 器 给 出 最 高 的 类 成 员 概率 的 测试 结 点 作为 最 终结 果 。 
这 些 标 记 的 测试 结 点 可 以 添加 到 训练 数据 中 ， 并 且 通 过 使 用 扩展 的 训练 数据 集 再 次 提取 链 
接 特 征 使 分 类 器 得 到 再 训练 。 重 复 该 方法 ， 直 到 所 有 结 点 的 标 答 都 已 完成 。 因 为 mn/T 结 点 
的 标签 在 每 个 迭代 中 都 被 完成 ， 所 以 整个 过 程 完全 以 工 次 迭代 结束 。 整 段 伪 代 码 如 图 10- 7 [B24] 
所 示 ， 


Algorithm ICA(Graph G = (N, A), Weights: [w;;], Node Class Labels: C, 
Base Classifier: A, Number of Iterations: T) 


begin 
repeat 
Extract link features at each node with current training data; 
Train classifier A using both link and content features of 
current training data and predict labels of test nodes; 
Make (predicted) labels of most “certain” n/T 
test nodes final, and add these nodes to training 
data, while removing them from test data; 
until T iterations; 
end 





图 10-7 和 迭代 分 类 算法 
迭代 分 类 算法 的 一 个 优点 是 可 以 在 分 类 过 程 中 无 缝 使 用 内 容 和 结构 。 例 如 ， 如 果 一 个 
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结 点 包含 了 与 其 他 相关 产品 中 的 兴趣 相对 应 的 特征 ， 则 这 些 特征 也 可 以 用 于 标记 过 程 。 分 
类 器 可 以 使 用 现成 的 特征 选择 算法 来 自动 选择 最 相关 的 特征 。 另 一 方面 ， 由 于 增加 了 非 正 
确 标 签 的 训练 示例 ， 和 迭代 分 类 的 早期 阶段 的 错误 可 以 在 后 期 阶段 中 传播 和 增加 。 这 会 增加 
噪声 训练 数据 集中 的 累积 误差 。 


10. 3.2 使 用 随机 游 走 的 标签 传播 


标签 传播 法 直接 在 无 向 网 络 结构 G==(N，A) 上 使 用 随机 游 走 。 边 G p 的 权重 由 
wi 二 wj 表示。 为 了 对 未 标记 结 点 i 进行 分 类 ， 从 结 点 i 开始 执行 随机 游 走 ， 并 在 遇 到 的 
第 一 个 标记 结 点 处 终止 。 随 机 游 走 获得 最 高 概率 的 类 被 作为 结 点 i 的 预测 标签 。 这 种 方法 
的 直觉 是 , 行走 更 有 可 能 在 结 点 i 附近 的 标记 结 点 处 终止 。 因 此 ， 当 一 个 特定 类 的 许多 结 
点 位 于 其 附近 时 ， 结 点 i 更 可 能 被 标记 为 该 类 ， 

一 个 重要 的 假设 是 图 必须 是 标签 连通 的 。 换 句 话 说， 每 个 未 标记 的 结 点 需要 能 够 在 随 
机 游 走 中 到 达 一 个 标记 结 点 。 对 于 无 向 图 G= 王 CN，A)， 这 意味 着 图 的 每 个 连通 分 量 都 需 
要 包含 至 少 一 个 标记 的 结 点 。 在 下 面 的 讨论 中 ， 将 假设 图 G=CN，A) 是 无 向 的 并 且 是 标 
签 连 通 的 。 

第 一 步 是 对 随机 游 走 进行 建 模 ， 使 得 其 始终 在 首次 到 达标 记 结 点 时 终止 。 这 可 以 通过 
从 标记 的 结 点 中 删除 出 边 并 用 自 循环 来 替换 它们 来 实现 。 此 外 ， 为 了 使 用 随机 游 走 方法 ， 
我 们 需要 用 一 个 nXn 的 转换 和 矩阵 P 二 [pi; j 将 无 向 图 G==(N，A) 转 换 为 有 向 图 G 一 CN， 
A')。 对 于 每 个 无 向 边 G, PCA, 将 有 向 边 G, j AG, D 加 到 相应 结 点 之 间 的 A 
E. G, j) 的 转换 概率 p; 定义 如 下 : 

py = 


Wij 

n 
> wa 
k=1 


(10-8) 


W G, D 的 转换 概率 pj; 定义 如 下 : 


Wy 
Dwa 
k=] 
例如 ， 从 图 10-6 的 无 向 图 所 创造 的 有 向 转换 图 如 图 10- 8 所 示 。 





Pji = (10-9) 





图 10-8 在 图 10-6 的 无 向 图 基础 上 构建 有 向 转换 图 


通过 使 用 这 个 转换 图 ， 各 种 随机 游 走 的 方法 对 于 传播 标签 都 是 可 行 的 。 考 虑 标签 属于 
{lek} 的 情况 。 该 想法 是 执行 次 个 性 化 PageRank 算法 ， 其 中 第 c 次 执行 的 个 性 化 向 量 
在 属于 第 c 类 的 标记 结 点 处 重新 启动 。 每 个 特定 类 的 个 性 化 PageRank 的 概率 与 该 类 的 先 
验 概 率 相 乘 ， 或 等 价 于 该 类 中 标记 的 训练 结 点 的 数量 。 对 于 每 个 结 点 ， 报 告 产 生 最 高 〈 优 
先 的 ) 个 性 化 PageRank 概率 的 类 索引 。 
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10. 3.3 社交 网 络 中 协同 过 滤 的 适用 性 


集合 分 类 技术 也 可 用 于 社交 网 络 用 户 的 协同 过 滤 。 考 虑 一 个 场景 ， 我 们 现在 有 不 同 用 
户 对 各 种 产品 的 评分 数据 。 此 外 ， 我 们 还 有 与 各 种 用 户 的 社交 关系 对 应 的 数据 。 因 此 ， 这 
个 问题 可 以 看 作 是 传统 协同 过 滤 问 题 的 泛 化 。 在 这 种 情况 下 ， 用 于 协同 过 滤 的 纯 基 于 近邻 
的 算法 将 会 考虑 到 评分 的 相似 性 ， 但 不 会 考虑 不 同 用 户 的 同 质 性 。 显 然 ， 为 了 进行 协同 过 
滤 ， 考 虑 在 用 户 之 间 进 行 同 质 性 是 有 利 的 。 如 第 1 章 和 第 3 章 所 述 ， 协 同 过 滤 方 法 是 传统 
分 类 问题 的 泛 化 。 即 使 在 社交 网 络 设置 中 ， 这 种 类 比 仍然 是 真实 的 。 

可 以 使 用 集合 分 类 法 轻松 处 理 这 个 问题 的 某 些 版 本 。 考 虑 到 评分 是 一 元 的 情况 ， 其 中 
用 户 有 一 种 机 制 来 指定 对 一 个 物品 的 喜欢 ， 但 没有 指定 不 喜欢 的 机 制 。 在 这 种 情况 下 ， 一 
个 产品 的 喜欢 规范 可 以 作为 在 该 结 点 上 的 关键 词 。 一 个 结 点 的 标签 由 感 兴 趣 的 特定 产品 定 
义 。 其 他 产品 的 标签 被 视 为 以 内 容 为 中 心 的 关键 词 。 现 在 问题 降低 为 结 点 内 容 的 集合 分 类 
的 问题 。 该 问题 的 这 种 变化 可 以 通过 ICA 算法 很 容易 地 处 理 。 

在 评分 不 是 一 元 的 情况 下 ， 该 问题 可 以 被 模拟 为 多 标签 集合 分 类 问题 ， 其 中 每 个 产品 
的 评分 被 视 为 单独 的 标签 05] 。 当 可 能 的 评分 数量 很 小 时 ， 每 个 评分 的 值 都 可 以 被 视 为 离 
散 值 。 由 于 所 有 物品 都 是 一 次 性 处 理 的 ， 因 此 单个 结 点 可 能 具有 与 各 种 物品 的 评分 相对 应 
的 多 个 结 点 。 目 标 是 使 用 结 点 上 的 特定 评分 与 网 络 结构 一 起 预测 各 种 物品 的 评分 值 。 在 这 
种 情况 下 ， 可 以 直接 应 用 [306] 中 的 技术 。 


10.4 推荐 好 友 : 链接 预测 


在 许多 社交 网 络 中 ， 我 们 希望 预测 网 络 中 结 点 对 之 间 的 未 来 链接 。 例 如 ， 商 业 社交 网 
络 〈 如 脸 书 ) 通常 会 推荐 用 户 作 为 潜在 的 朋友 。 正 如 我 们 将 在 后 面 看 到 的 ， 这 种 方法 也 直 
接 适 用 于 协同 过 滤 技术 。 在 本 节 中 ， 我 们 将 讨论 各 种 常用 于 链接 预测 的 技术 。 


10. 4.1 基于 近邻 的 方法 


基于 近邻 的 方法 以 不 同 的 方式 使 用 一 对 结 点 i 和 j 之 间 的 公共 邻居 的 数量 来 量化 未 来 
它们 之 间 的 一 条 链接 的 可 能 性 。 例 如 ， 在 图 10-9a 中 ，Alice 和 Bob 共享 4 个 公共 的 邻居 。 
因此 ， 推 测 他 们 之 间 可 能 会 形成 一 个 链接 是 合理 的 。 除 了 他 们 的 共同 邻居 ， 他 们 也 有 各 自 
的 不 相交 的 邻居 和 集 。 有 很 多 不 同 的 方法 来 规范 化 基于 近邻 的 方法 ， 以 解释 不 同 邻居 的 数量 
和 相对 重要 性 。 这 些 将 在 下 面 讨论 。 

定义 10. 4. 1 (公共 邻居 度量 ) 结 点 i 和 j 之 间 的 公共 邻居 度量 等 于 结 点 i 和 j 之 间 
的 公共 邻居 数 。 换 向 话说 ， 如 果 Si 是 结 点 i 的 邻居 集合 ， 并 且 S; 是 结 点 J 的 邻居 集合 ， 
则 公共 邻居 度量 被 定义 如 下 : 

CommonNeighbors(i,j) = |S: N S; | (10-10) 

公共 邻居 度量 的 主要 缺点 是 ， 与 其 他 连接 的 数量 相 比 ， 它 并 不 考虑 结 点 之 间 的 公共 邻 
居 的 相对 数量 。 在 图 10- 9a 的 例子 中 ，Alice 和 Bob 各 自 具 有 相对 较 小 的 结 点 度 。 考 虑 一 
种 不 同 的 情况 ， 其 中 Alice 和 Bob 是 垃圾 邮件 制造 者 或 是 与 大 量 其 他 演员 相关 的 非常 受 欢 
迎 的 公众 人 物 。 在 这 种 情况 下 ，Alice 和 Bob 可 能 很 轻易 地 拥有 很 多 共同 的 邻居 ， 只 是 偶 
然 地 讲 。Jaccard 度量 被 设计 为 对 不 同 程度 的 分 布 进行 归 一 化 。 

定义 10.4.2 (Jaccard 度量 ) 结 点 i 和 j 之 间 的 基于 Jaccard 的 链接 预测 度量 分 别 等 
于 它们 的 邻居 集 S; 和 Sj 之 间 的 Jaccard 系数 。 
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1S: NS; | 
EEU 
图 10-9a 中 的 Alice 和 Bob 之 间 的 Jaccard 度量 是 4/9。 如 果 Alice 或 Bob 的 度 增 加 ， 它 们 
之 间 的 Jaccard 系数 就 会 降低 。 因 为 结 点 的 需 律 分 布 ， 这 种 归 一 化 是 很 重要 的 。 

Jaccard 度量 对 于 进行 链接 预测 的 结 点 的 度 的 变化 进行 更 好 的 调整 。 然 而 ， 它 不 能 很 
好 地 适应 其 中 间 邻 居 的 度 。 例 如 ， 在 图 10-9a 中 ，Alice 和 Bob 的 公共 邻居 是 Jack, John, 
Jill 和 Mary。 然 而 ， 所 有 这 些 公 共 的 邻居 可 能 是 具有 高 度数 的 非常 受 欢 迎 的 公众 人 物 。 因 
此 ， 这 些 结 点 在 统计 学 上 更 可 能 成 为 许多 结 点 对 的 公共 邻居 。 这 使 得 它们 在 链接 预测 的 度 
量 中 不 那么 重要 。Adamic-Adar 测量 旨 在 说 明 不 同 的 公共 邻居 的 不 同 重要 性 。 它 可 以 被 视 
为 公共 邻居 测量 的 加 权 版 本 ， 其 中 一 个 公共 邻居 的 权重 是 其 结 点 度 的 一 个 递减 函数 。 在 
Adamic- Adar 测量 的 情况 下 使 用 的 典型 函数 是 反对 数 。 在 这 种 情况 下 ， 上 有 具有 索引 的 公共 
邻居 的 权重 被 设置 为 1/log( | S|), HP Ss 是 结 点 & 的 邻居 集合 。 


JaccardPredict(i,;) = (10-11) 





Bob 


Mary Mary 
a)Alice 和 Bob 之 间 的 许多 公共 邻居 b)Alice 和 Bob 之 间 的 许多 间接 连接 
10-9 不 同 链接 预测 度量 的 多 种 效果 举例 


定义 10.4.3 (Adamic Adar 度量 ) 结 点 i 和 j 之 间 的 公共 邻居 度量 等 于 结 点 i 和 j 
之 间 公 共 邻 居 的 加 权 数 。 结 点 上 的 权 值 被 定义 为 1/log( | Si |). 


5 EE. 1 : 
AdamicAdar(i,j) ths 和 Se 1D (10-12) 
对 数 的 基数 在 之 前 的 定义 中 无 关 紧 要 ， 只 要 为 所 有 对 结 点 都 选择 一 致 的 值 即 可 。 在 图 10- 9a 


中 ， Alice 和 Bob 之 间 的 Adamic- Adar 度量 是 -Chj + + 1 + EME 


log(2) log(4) log(2)° 





log(2) 


10.4.2 Katz 度量 


虽然 基于 近邻 的 度量 在 一 对 结 点 之 间 形 成 链接 的 可 能 性 上 提供 了 一 个 健壮 的 估计 ， 但 
是 当 一 对 结 点 之 间 的 公共 邻居 的 数量 很 少时 ， 这 些 度量 不 是 很 有 效 。 例 如 ， 在 图 10-9b 的 
情况 下 ，Alice 和 Bob 共享 同一 个 邻居 。Alice 和 Jim 也 共享 一 个 邻居 。 因 此 在 这 些 情 况 
下 ， 基 于 近邻 的 度量 难以 区 分 不 同 的 成 对 预测 的 强度 。 然 而 ， 在 这 些 情 况 下 ， 通 过 更 长 的 
路 径 来 看 ， 似 乎 也 存在 着 明显 的 间接 连接 。 在 这 种 情况 下 ， 基 于 行走 的 度量 更 为 合适 。 通 
常用 于 测量 链接 预测 强度 的 一 个 特定 的 基于 行走 的 度量 是 Katz 度量 。 

定义 10.4.4 (Katz ŽE) Anp 是 结 点 i 和 j 之 间 长 度 t 的 行走 的 数量 。 对 于 用 户 
定义 的 参数 B<1， 结 点 i 和 j 之 间 的 Katz 度量 定义 如 下 : 


Katz(i,j) = D pie ns (10-13) 
t=1 
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8 的 值 是 一 个 折扣 系数 以 弱化 长 的 行走 距离 。 对 于 足够 小 的 8 值 ， 公 式 (10-13) 的 无 限 求 
和 将 会 收敛 。 如 果 A 是 一 个 无 向 网 络 的 对 称 邻 接 矩 阵 ， 则 可 以 计算 nXn 成 对 的 Katz 系数 
和 矩阵 下 可 被 计算 如 下 : 


K= 5) (pA)' = (I—8A) 1!—I (10-14) 
i=] 


A* 的 特征 值 是 4 REER k KE. p 的 值 应 该 总 是 选择 为 小 于 4 的 最 大 特征 值 的 倒数 ， 
以 确保 无 限 求 和 的 收敛 。 可 以 通过 用 图 的 权重 矩阵 替换 4 来 计算 该 度量 的 加 权 版 本 。 开 atz 
度量 通常 提供 了 出 色 的 预测 结果 。 

值得 注意 的 是 ， 结 点 i 相对 于 其 他 结 点 的 Katz 系数 的 和 被 称 为 其 Katz 中 心性 。 用 来 
度量 中 心性 的 其 他 机 制 ， 如 亲近 度 和 PageRank 也 以 一 种 修改 后 的 方式 用 于 链接 预测 。 中 
心性 和 链接 预测 度量 之 间 的 这 种 关联 是 因为 高 度 中 心性 的 结 点 倾向 于 与 许多 结 点 形成 链接 。 


10.4.3 基于 随机 游 走 的 度量 


基于 随机 游 走 的 度量 是 一 种 定义 结 点 对 之 间 连 通 性 的 不 同方 式 。 两 个 属于 此 的 度量 是 
PageRank 和 SimRank。 这 些 方法 在 10. 2 节 中 有 详细 描述 。 

计算 结 点 i 和 j 之 间 的 相似 度 的 第 一 种 方法 是 使 用 结 点 7 的 个 性 化 PageRank， 其 中 在 结 
点 上 执行 重新 启动 。 该 思想 是 ， 如 果 j 是 i 的 结构 上 的 邻近 ， 则 当 在 结 点 i 执行 重启 时 ， 其 
将 具有 非常 高 的 个 性 化 PageRank 度量 值 。 这 表明 结 点 i 和 1j 之 间 的 链接 预测 强度 较 高 。 个 性 
化 PageRank 是 结 点 i 和 j 之 间 的 非 对 称 度量 。 因 为 本 节 的 讨论 针对 的 是 无 向 图 的 情况 ， 因 
此 可 以 使 用 PersonalizedPageRank(i，j;) 和 PersonalizedPageRank(j, i) 的 平均 值 。Sim- 
Rank 度量 的 男 一 种 可 能 性 是 其 已 经 是 一 个 对 称 的 度量 。 该 度量 计算 了 一 个 通过 两 个 随机 
冲浪 向 后 移动 以 达到 相同 点 所 需 的 行走 长 度 的 反 函 数 。 报 告 作为 链接 预测 度量 的 对 应 值 。 


10. 4.4 作为 分 类 问题 的 链接 预测 


上 述 方法 是 无 监督 的 启发 式 的 。 对 于 一 个 给 定 的 网 络 ， 其 中 的 一 个 方法 可 能 更 有 效 ， 而 另 
一 个 可 能 对 不 同 的 网 络 更 有 效 。 如 何 解 决 这 个 困境 ， 并 选择 对 于 一 个 给 定 网 络 的 最 有 效 的 方法 ? 

通过 将 一 对 结 点 之 间 的 一 个 链接 的 存在 或 不 存在 ， 作 为 二 进 制 类 别 指示 符 来 将 链接 预 
测 问题 视 为 分 类 问题 。 因 此 ， 可 以 为 每 对 结 点 提取 一 条 多 维 数据 记录 。 这 种 多 维 记录 的 特 
征 包括 结 点 之 间 的 所 有 不 同 的 基于 近邻 、 基 于 Katz 或 基于 行走 的 相似 性 。 此 外 ， 还 使 用 
了 许多 其 他 优先 附加 特征 ， 例 如 该 对 结 点 中 的 每 个 结 点 的 结 点 度 。 因 此 ， 对 于 每 个 结 点 
对 ， 构 建 一 条 多 维 数据 记录 。 结 果 是 一 个 正 的 未 标记 的 分 类 问题 ， 其 中 具有 边 的 结 点 对 是 
正面 示例 ， 其 余 的 是 未 被 标记 的 示例 。 未 被 标记 的 例子 可 以 大 致 被 视 为 用 于 训练 的 负面 样 
本 。 因 为 在 大 型 的 和 稀 朴 的 网 络 中 存在 太 多 的 负面 样 例 ， 所 以 只 使 用 一 个 负面 例子 的 样 
本 。 因 此 ， 有 监督 的 链接 预测 算法 的 工作 原理 如 下 所 述 : 

1) 训练 阶段 :生成 一 个 多 维 数据 集 ， 其 中 为 每 对 结 点 ( 结 点 之 间 有 边 ) 包含 一 条 数 
据 记 录 ， 并 且 结 点 对 ( 结 点 之 间 无 边 ) 包含 一 组 数据 记录 的 样本 。 特 征 对 应 于 所 提取 的 结 
点 对 之 间 的 相似 性 和 结构 特征 。 类 标签 是 该 结 点 对 之 间 存 在 或 不 存在 边 。 在 数据 上 构建 一 
个 训练 模型 。 

2) 测试 阶段 : 将 每 个 测试 结 点 对 转换 为 一 条 多 维 记录 。 使 用 任何 常规 的 多 维 分 类 器 
进行 标签 预测 。 

逻辑 回归 ?站 是 基本 分 类 器 的 一 种 常用 选择 。 由 于 基本 分 类 问题 的 不 平衡 性 质 ， 通 常 
使 用 各 种 分 类 器 的 成 本 敏感 版 本 。 
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这 种 方法 的 一 个 优点 是 可 以 以 无 颖 的 方式 使 用 内 容 特 征 。 例 如 ， 可 以 使 用 一 对 结 点 之 
间 的 内 容 相似 性 。 分 类 器 将 在 训练 过 程 中 自动 学 习 这 些 特征 的 相关 性 。 此 外 ， 与 许多 链接 
预测 方法 不 同 的 是 ， 该 方法 还 可 以 通过 以 不 对 称 方式 提取 特征 来 处 理 有 向 网 络 。 例 如 ， 可 
以 使 用 入 度 和 出 度 作为 特征 来 代替 使 用 结 点 的 度 。 随 机 游 走 特征 也 可 以 以 非 对 称 的 方式 在 
有 向 网 上 定义 ,例如 在 结 点 i 处 重新 启动 以 计算 结 点 j 的 PageRank 值 ， 反 之 亦 然 。 一 般 
来 说 ， 有 监督 的 模型 更 加 灵活 ， 因 为 它 有 能 力学 习 各 种 类 型 的 链接 和 特征 之 间 的 关系 。 


10. 4.5 ”链接 预测 的 矩阵 分 解 


像 协 同 过 滤 一 样 ， 链 接 预 测 法 可 以 被 视 为 具有 隐 式 反馈 矩阵 的 矩阵 求解 问题 。 令 A 为 基 
图 的 nXn 邻接 和 矩阵。 我 们 假设 矩阵 A 是 二 值 的 ， 其 中 边 的 存在 和 不 存在 分 别 由 1 和 0 表示 。 
TER. EE A 对 于 有 向 图 是 不 对 称 的 ， 对 于 无 向 图 是 对 称 的 。 和 矩阵 分 解法 可 以 以 两 种 不 同 
的 方式 使 用 ， 这 取决 于 图 是 有 向 还 是 无 向 的 。 对 于 有 向 图 ,分解 过 程 与 协同 过 滤 非 常 相 似 : 

A x~ UVT (10-15) 
XH, ARAB. WS, U= Lu, MV =L u ] 都 是 大 小 为 nX&k 的 因子 矩阵 。 在 学 
JUMV ZJ., TUFE UVT 中 具有 最 大 预测 权重 的 边 。 

矩阵 A 可 以 被 看 作 是 与 隐 式 反馈 矩阵 相似 ， 其 中 我 们 需要 一 组 正和 负 元 素 的 样本 ( 参 
见 第 3 章 3. 6. 6.2 节 )。 注 意 ,我 们 可 以 使 用 和 矩阵 A 中 的 所 有 元 素 作 为 观察 元 素 , 但 是 当 
结 点 数 n 大 时 ， 这 种 方法 的 计算 复杂 度 会 很 高 。 此 外 ， 邻 接 矩 阵 的 稀 足 性 能 够 确保 分 解 过 
程 由 不 太 重 要 的 零 元 素 控 制 。 因 此 ， 我 们 仅 使 用 和 矩阵 中 的 一 组 “观察 到 的 ”元 素 样本 。 我 
们 定义 正 、 负 元 Se 和 SN 如 下 : 

Sp = ((i,j):a; Æ 0} 
SN = {(i,7) 的 随机 样本 :ai = 0} 

所 有 的 正 的 元 素 都 包括 在 内 ， 因 为 它们 是 罕见 的 ， 因 此 非常 有 价值 而 不 能 被 丢弃 。 然 
后 ， 我 们 将 4 的 “观察 到 的 ”元 素 定 义 为 S=Sp USN， 用 于 优化 过 程 。 只 有 集合 SHF 
训练 ， 因 此 SN 的 选择 会 对 算法 获得 的 结果 有 影响 。SP 和 SN 的 相对 大 小 将 控制 这 两 种 类 
型 元 素 的 相对 重要 性 。 注 意 ， 如 果 SN 被 选择 为 等 于 矩阵 中 的 所 有 零 元 ， 则 分 解 将 由 零 元 
控制 进行 ， 并 且 有 可 能 不 能 在 捕获 所 有 重要 边 时 奏效 。 在 所 有 稀有 类 检测 的 问题 中 ， 两 种 
类 型 的 元 素 的 差异 重要 性 是 适当 的 。 例 如 ，SN 的 大 小 可 以 设置 为 等 于 Sp 。 

对 于 任何 元 素 G, ES, oe ai WE: 


= Sw Vis (10-16) 
预测 一 个 元 素 的 误差 已 给 出 为 6@; 二 a; 一 ,我 们 想 在 所 有 观察 到 的 元 素 上 最 小 化 化 这 个 误 
差 。 正 则 化 的 目标 函数 如 下 给 出 : 
n k 
Minimize J= + > eto ett pe: 


2 DES =] 5 一 1 j=ls= 
ET Pa A Zu ev)? T DEE Sia 
这 里 , A 是 正则 化 参数 。 en eine 个 Xn 方 阵 之 外 ， ix + A i K 
数 实际 上 与 第 3 章 3. 6. 4. 2 节 中 讨论 的 相同 。 然 而 ， 解 决 方法 和 梯度 下 降 更 新 完全 相同 。 


可 以 使 用 向 量化 的 梯度 下 降 〈 其 中 相对 于 所 有 元 素 上 的 误差 计算 梯度 )， 或 随机 梯度 下 降 
《其 中 使 用 随机 选择 的 边 上 的 误差 来 随机 逼近 导数 )。 在 常规 的 梯度 下 降 中 ,矩阵 避 和 了 被 
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随机 初始 化 ， 并 且 对 于 习 的 每 个 元 素 G O 和 VW 的 每 个 元 素 G. 0 重复 执行 以 下 更 新 : 


9 
uy Euy — a DL = uy tal Ži ey Da— Ae uy) 
Uig jG, DES 





Vjg vjg — a on = Uy, Fal tat © ug —A* vj ) 
KE, >00 是 学 习 率 。 可 以 在 第 3 章 图 3- 8 WHER AHIT RHE. MIWA 
阵 运 算 来 执行 更 新 。 
第 一 步 是 计算 一 个 误差 矩阵 五 =[Ley]， 其 中 五 的 未 被 观察 的 元 素 〈 即 不 在 S 中 的 元 素 ) 
被 设置 为 0。 注意 ,五 是 一 个 非常 稀 朴 的 矩阵 ， 并 且 仅 为 观察 到 的 元 素 G, j) ES 计算 6 的 
值 ， 同 时 使 用 一 个 稀疏 的 数据 结构 来 存储 该 矩阵 才 有 意义 。 随 后 ， 更 新 可 以 如 下 计算 
U=(l—a*A)U+aEV 
V=(1—a+A)V+aE'U 
EFK, 我 们 描述 随机 梯度 下 降 。 基 本 思想 是 关于 由 单个 元 素 (包括 SN 中 的 一 个 “ 零 ” 
Vi) 贡献 的 误差 分 量 随机 通 近 梯度 。 集 合 S 中 的 边 以 随机 打 乱 的 顺序 被 处 理 ， 并 且 基 于 相 
对 于 该 边 的 误差 梯度 来 更 新 潜在 因子 。 从 U 和 Y 的 随机 初始 化 开始 ， 可 以 使 用 关于 随机 选 
择 元 素 G, 站 ES 的 以 下 更 新 
aJ 
Uig SU — a * | a 


aj 
WR aa | sate ay Ve 


可 以 扩展 上 述 表达 式 ， 并 通过 对 g€ {1…%}) 不 同 值 合 并 更 新 转换 成 U RV) 对 应 行 的 一 
个 单 向 量化 更 新 。 令 a; WEE UKK IT, o 为 矩阵 V 的 第 j 行 。 然 后 ， 随 机 梯度 下 降 
更 新 可 以 写成 如 下 : 





Vg E {lk} 





ore — A 
ui Uj tales ay OutDegree(i) 
LEM a A 
Uj = Uj +afe; uj OutDegree(j) ) 


RE, a>0 是 学 习 率 。 我 们 继续 循环 S 中 的 各 种 边 ， 直 到 达到 收敛 。 随 机 梯度 下 降 法 的 
总 体 框架 如 图 10- 10 所 示 。 


Algorithm LinkPrediction(Adjacency Matrix: A, Regularization: A, Step Size: a) 
egin 


Randomly initialize matrices U and V; 
Sp = {(i,j) : aij #0}; 

Sy = {Random sample of (i, j) : ai; = 0}; 
S=SpuUSn ; 

while not(convergence) do 


egin 
Randomly shuffle observed entries in S; 
for each (i, j) € S in shuffled order do 
begin 
k 
Cig = ij — Day UisUjai 
gh) 25 ‘7 Aui 
Ti = Uj tA | C405 at a5) 
ort) a re Ay 
T) Dt a | eth noen) 
T= Th; = a); 
end 
Check convergence condition; 
end 
end 





图 10-10 有 向 链接 预测 的 随机 梯度 下 降 
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我 们 在 这 里 使 用 了 比 在 第 3 章 中 稍微 更 精确 的 正则 化 项 。 这 里 ，OutDegree(i) 和 In- 
Degree(j) 分 别 表 示 结 点 i 和 j 的 出 度 和 人 入 度 。 请 注意 ， 需 要 针对 Sp U SN 而 不 是 仅 Sp 来 
计算 结 点 的 出 度 和 入 度 。 

可 以 通过 一 种 集合 方法 进一步 提高 方法 的 精确 性 。 利 用 负 样 本 SN 的 不 同 绘制 将 矩阵 
多 次 分 解 。 每 个 分 解 可 能 会 提供 一 条 边 的 一 个 稍微 不 同 的 预测 。 然 后 对 和 矩阵 中 的 一 个 特定 
元 素 的 不 同 预测 取 平 均值 以 创建 最 终结 果 。 除 了 采样 ， 也 可 以 在 SN 中 包括 所 有 的 零 值 元 
素 ， 然 后 定义 一 个 加 权 优 化 问题 ， 其 中 非 零 元 素 被 赋予 比 零 元 素 更 大 的 权重 0 二 1。 使 用 交 
又 验证 来 学 习 权 重 参数 9 的 真实 值 。 在 这 种 情况 下 ， 随 机 梯度 下 降 不 再 可 行 ， 因 为 矩阵 的 
(指定 ) 元 素数 量 很 多 。 然 而 ， 由 于 大 多 数 元 素 是 零 ， 可 以 使 用 一 些 技巧 [01 有效 地 利用 
加 权 的 ALS 方法 。 

这 种 方法 是 非常 通用 的 ， 因 为 它 可 以 应 用 于 有 向 和 有 符号 网 络 。 在 无 符号 网 络 的 情况 
下 ， 可 以 对 潜在 因素 施加 非 消 极 性 约束 ， 以 避免 过 拟 合 。 更 新 公式 的 唯一 变化 是 一 次 迭代 
后 的 任何 负 因 子 的 值 都 被 设置 为 0。 可 以 通过 用 两 个 有 向 边 替换 每 个 无 向 边 来 处 理 无 向 网 
络 。 此 外 ， 无 向 网 络 中 的 集合 SN 应 该 首先 通过 采样 结 点 对 (在 它们 之 间 没 有 边 ) 然后 包 
含 在 SN 中 的 两 个 方向 上 的 边 来 进行 构造 。 在 下 一 节 中 ,我们 将 提出 一 种 通过 减少 学 习 参 
数 的 数量 来 针对 无 向 网 络 进行 专门 优化 的 方法 。 

10. 4.5. 1 对 称 和 矩阵 分 解 

对 于 无 向 图 ， 我 们 不 需要 两 个 单独 的 因子 矩阵 U 和 站 ， 因 为 矩阵 4 是 对 称 的 。 使 用 较 
少 优化 的 参数 具有 减少 过 拟 合 的 优点 。 在 这 种 情况 下 ， 我 们 可 以 使 用 一 个 单独 的 因子 矩阵 
U 并 如 下 表示 人 分解: 

Ax UUT (10-17) 
XE, U=(u, ÆA nXk HATER., WAIE, S=SpUSn 中 观察 到 的 元 素 包 括 Sp 
中 的 存在 的 边 ， 以 及 SN 中 的 一 些 “ 零 ” 边 。 对 于 无 向 图 中 的 每 条 边 (i, j)，(i, j) 和 
G, Ò 都 包含 在 Sp 中 。 零 边 从 结 点 对 之 间 不 存在 边 的 结 点 对 中 进行 选择 ， 边 的 两 个 方向 
都 包含 在 SN 中 。 换 句 话说， 如 果 G, j 包含 在 Sy H, W G, D 也 包含 在 其 中 。 由 于 
条 件 ASUUT 的 性 质 ， 每 个 观察 元 素 (i，j) ES 可 以 预测 如 下 : 


k 
= N Ugi; (10-18) 
s=1 


预测 的 相应 误差 由 ej 一 必 一 必 给 出 。 我 们 希望 在 观察 的 元 素 上 最 小 化 该 误差 。 正 则 化 的 
目标 函数 如 下 : 


Minimize J= + Dats S 
(ij) E 


i=l s=1 


k k 
=4 D (ay Du eu) +4 Dak 


G.peEs s=1 


对 于 上 面 每 一 个 决策 变量 ， 对 了 求 偏 导 ， nicola: 果 : 


2- =) (a; +a; — 23%, “js )(— ag) F hu 
iq 


:GPNES 


Vie {lin},g E {lek} 


O 这 里 的 一 个 隐 含 的 假设 是 矩阵 4 是 正 半 定 的 。 然 而 , 通过 将 4 的 (未 观察 到 的 ) 对 角 线 元 素 设置 为 结 点 度 ， 
可 以 证 明和 妇 是 正 半 定 的 。 这 些 未 观察 的 对 角 线 元 素 不 会 影响 最 终 解决 方案 ， 因 为 它们 不 是 优化 问题 的 一 部 分 。 
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5X) Cej ed) wu) th Vi E {Leen} og E {1k} 





j: ES 

= >) 2ej)(—ujg) + Aug Vi E (Leen) sq € {leek} 
P:G PES 

A — ee) ug) aa VIE (lends & {lek} 
OU jg ici NES 


注意 ， 由 于 原始 和 矩阵 4、 预测 矩阵 A 和 误差 矩阵 Le; J 都 是 对 称 的 ， 所 以 e 十 ei 的 值 被 
Paa Sga, SUPRE F EE a ht & E=(e,; ] 是 仅 将 S 中 的 观察 元 素 


设置 为 ay 一 Yu, 并 且 将 未 观察 的 元 素 设置 为 0 的 误差 矩阵 。 可 以 对 在 S 中 的 所 有 元 


素 过 元 地 计算 矩阵 并 以 稀 琉 形式 存储 。 随后 ， 可 以 使 用 如 下 的 稀 玻 矩阵 乘法 来 执行 更 新 : 
UU(l — Aa) + 2aEU (10-19) 

EXE, a>O 表示 步 长 。 注 意 ， 通 过 适当 调整 步 长 和 正则 化 参数 ， 可 以 忽略 2aEU 中 的 常 
数 系数 2。 

随机 梯度 下 降 方法 可 以 用 于 更 快 的 收敛 ， 尽 管 所 得 到 的 解决 方案 的 质量 通常 较 低 。 在 
随机 梯度 下 降 的 情况 下 ， 导 数 被 分 解 成 单个 元 素 CG) 的 误差 分 量 ， 并 且 对 于 每 个 元 素 
( 边 》 中 的 误差 来 说 ， 更 新 是 特定 的 。 在 这 种 情况 下 ， 可 以 对 每 个 观察 元 素 Gi, HES 执 
行 以 下 2. 上 次 更 新 : 





pe 
x s 
Ujq Eja +a(2ey sug + ss i Va E {lek} 


这 里 Degree(i) 表 示人 入 射 到 i 上 的 边 数 ， 包 括 SN 中 的 “ 边 ”。 还 可 以 根据 品 的 第 i as y 
行 态 书写 这 些 更 新 : 

we T+ a( Ze i 

TET + a(2ey i) 
通常 使 用 交叉 验证 方法 或 通过 在 保留 集 上 尝试 各 种 4 值 来 选择 4 的 值 。 和 矩阵 分 解法 的 一 
很 好 的 特点 是 ， 它 可 以 无 颖 地 在 有 符号 和 无 符号 网 络 上 工作 。 此 外 ， 该 方法 的 适当 变 体 可 
用 于 有 向 和 无 向 网 络 。 而 对 于 许多 其 他 的 针对 无 向 和 无 符号 网 络 而 设计 的 链接 预测 方法 来 
说 是 不 一 定 的 。 

在 传统 的 协同 过 滤 (参见 第 3 章 3. 6. 4.5 节 ) 的 情况 下 ， 也 可 以 在 矩阵 分 解 过 程 中 引 

入 偏差 变量 。 在 用 于 链接 预测 的 矩阵 分 解 框架 内 引入 偏差 变量 ， 直 观 地 等 同 于 在 网 络 中 使 
用 优先 依附 原理 [22] 。 在 无 符号 图 的 情况 下 ， 可 以 使 用 非 负 和 矩 阵 分 解 方 法 。 当 评分 矩阵 可 
以 表示 为 用 户 一 物品 图 [3 时 ， 这 些 方法 中 的 一 些 在 协同 过 滤 中 具有 双重 用 途 。 下 一 节 将 
详细 讨论 这 些 关 联 。 


10.4.6 链接 预测 和 协同 过 滤 的 关联 


链接 预测 和 协同 过 滤 都 试图 估计 缺失 的 值 。 因 此 ， 探 索 它们 之 间 的 联系 是 很 自然 的 。 链 
接 预 测 非常 类 似 于 协同 过 滤 的 隐 式 反馈 设置 ， 其 中 一 条 链接 的 存在 类 似 于 一 个 一 元 评分 。 用 
户 一 物品 图 的 概念 提供 了 链接 预测 和 协同 过 滤 之 间 的 一 种 自然 联系 。 关 于 创建 用 户 一 物品 
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图 的 过 程 的 详细 讨论 在 第 2 章 2.7 节 中 给 出 。 对 于 一 元 评分 矩阵 〈 或 隐 式 反馈 数据 集 )， 
传统 的 链接 预测 方法 可 以 应 用 于 用 户 - 物 品 图 ， 以 便 预 测 用 户 和 物品 之 间 的 紧密 度 〈 链 
接 )。 每 个 用 户 对 应 于 用 户 一 物品 图 中 的 一 个 用 户 结 点 ， 并 且 每 个 物品 对 应 于 一 个 物品 结 
点 。 和 矩阵 中 的 所 有 的 工 对 应 于 用 户 结 点 和 物品 结 点 之 间 的 边 。 评 分 为 一 元 的 情况 的 例子 分 
别 如 图 10- 11a 和 图 10-11b 所 示 。 请 注意 ， 用 户 结 点 和 物品 结 点 之 间 的 链接 的 预测 强度 提 
供 了 相应 用 户 对 相应 物品 的 喜爱 程度 的 预测 。 由 于 这 种 关联 ， 链 接 预 测 方法 可 以 用 于 执行 
协同 过 滤 。 此 外 ， 相 反 的 是 ， 协 同 过 滤 算 法 也 可 以 适应 于 链接 预测 。 

10. 4.6.1 使 用 链接 预测 算法 进行 协同 过 滤 

通过 预测 在 用 户 一 物品 图 中 的 一 个 用 户 结 点 处 可 能 形成 的 前 个 用 户 一 物品 链接 ， 可 
以 为 该 用 户 预 测 前 个 物品 。 此 外 ， 通 过 确定 在 一 个 物品 结 点 处 可 能 形成 的 前 个 用 户 一 
物品 链接 ， 商 家 可 以 确定 前 & 个 用 户 ， 她 可 以 向 其 宣传 特定 的 物品 。 值 得 注意 的 是 ， 即 使 
在 用 户 的 社交 网 络 结构 是 已 知 的 情况 下 也 可 以 使 用 该 方法 。 在 这 种 情况 下 ， 用 户 之 间 的 边 
被 包含 在 链接 预测 的 过 程 中 。 包 含 这 些 边 将 导致 在 推荐 过 程 中 并 入 社交 链接 的 同 质 性 效 
果 。 这 些 方法 将 在 第 11 章 11. 3. 7 节 更 详细 地 讨论 。 

明确 指定 评分 的 情况 更 具 挑 战 性 ， 因 为 评分 可 能 预示 着 喜欢 或 不 喜欢 当前 的 物品 。 传 统 
的 链接 预测 问题 本 质 上 是 为 了 处 理 正面 关系 的 概念 ， 而 不 是 负面 关系 的 概念 。 然 而 ， 链 接 预 
测 中 的 一 些 最 新 进展 也 可 以 处 理 这 些 情况 了 。 为 了 方便 讨论 ， 请 考虑 评分 是 属于 {一 1， 十 1) 
的 情况 ， 对 应 于 用 户 喜 欢 或 不 喜欢 一 个 物品 。 在 这 种 情况 下 ， 使 用 评分 的 符号 来 标记 边 。 
评分 是 二 值 的 例子 分 别 如 图 10- 11c 和 图 10-11d 所 示 。 所 得 到 的 网 络 是 一 个 有 符号 的 网 
络 ， 我 们 期 望 它 预 测 进入 一 位 用 户 的 前 & 个 正 链 接 ， 以 便 确定 用 户 最 喜欢 的 物品 。 通 过 预 
测 前 个 的 负 链 接 ， 人 们 其 至 可 以 发 现 用 户 最 不 喜欢 的 前 有 个 物品 。 这 个 问题 是 在 有 符号 
网 络 中 的 正 或 负 链 接 预测 。 虽然 本 章 没 有 讨论 有 符号 的 链接 预测 问题 ,但 在 文献 [324- 
326, 346, 591] 中 已 经 展示 了 无 符号 链接 预测 的 方法 是 如 何 扩 展 到 有 符号 网 络 的 情况 。 
链接 预测 方法 对 于 一 元 的 或 二 值 的 评分 数据 是 最 有 效 的 ， 尽 管 也 可 以 使 用 任意 的 评分 。 在 
那 种 情况 下 ， 对 每 个 用 户 的 评分 需要 以 均值 为 中 心 ， 然 后 一 个 正 的 或 负 的 权重 与 跟 评分 的 
中 心平 均值 对 应 的 链接 相关 联 。 该 过 程 的 结果 是 产生 一 个 链接 被 加 权 的 有 符号 网 络 ， 并 且 
许多 用 于 有 符号 链接 预测 的 方法 都 可 以 处 理 这 样 的 设置 。[324，325] 中 的 工作 还 展示 了 
如 何在 协同 过 滤 应 用 的 上 下 文中 使 用 有 符号 网 络 ， 尽 管 使 用 的 方法 与 此 处 讨论 的 不 同 。 


用 户 





b) 无 符号 的 链接 预测 
10-11 用 于 协同 过 滤 的 链接 预测 
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中 有 符号 的 链接 预测 
图 10-11 (8) 


10. 4. 6.2 使 用 协同 过 滤 算法 进行 链接 预测 

协同 过 滤 和 链接 预测 都 缺失 值 估计 问题 。 唯 一 的 区 别 是 在 用 户 - 物 品 矩阵 上 执行 协同 
过 滤 ， 而 在 结 点 - 结 点 抢 阵 上 执行 链接 预测 。 尽 管 矩阵 维 数 的 差异 可 能 会 影响 算法 的 表现 ， 
但 一 个 相对 不 被 赏识 的 事实 是 ， 几 乎 所 有 的 协同 过 滤 方 法 都 可 以 用 于 链接 预测 。 然 而 ， 对 
协同 过 滤 算 法 的 一 些 适应 是 很 需要 的 。 

例如 ,可 以 使 用 几乎 所 有 的 基于 近邻 的 方法 ， 稀 玖 的 线性 模型 和 用 于 链接 预测 的 矩阵 
分 解法 。 一 个 基于 用 户 的 近邻 方法 映射 到 邻接 矩阵 上 的 一 个 逐 行 的 方法 ， 并 且 一 个 基于 物 
品 的 近邻 方法 映射 到 邻接 矩阵 上 的 一 个 逐 列 的 方法 。 然 而 ， 由 于 无 向 网 络 的 邻接 矩阵 是 对 
称 的 ， 所 以 不 能 区 分 基于 用 户 的 和 基于 物品 的 方法 (参见 习题 8 和 习题 9) 。 一 个 重要 的 发 
现 是 ， 这 些 方法 均 可 以 用 于 无 向 的 和 有 向 的 链接 预测 ， 而 许多 其 他 的 链接 预测 方法 仅 适用 
于 无 向 网 络 。 在 有 向 网 络 的 情境 中 ， 基 于 用 户 和 基于 物品 的 方法 将 分 别 映射 到 基于 出 边 的 
方法 和 基于 人 边 的 方法 。 最 近 ， 链 接 预 测 与 协同 过 滤 之 间 的 这 种 关系 已 经 越 来 越 受 到 关 
注 。[432] 的 工作 特别 有 启发 性 ， 因 为 它 适 应 了 用 于 链接 预测 的 矩阵 分 解 方法 。 然 而 ， 利 
用 协同 过 滤 方 法 进行 链接 预测 仍然 存在 很 大 的 余地 。 在 链接 预测 的 背景 下 ， 大 多 数 近邻 方 
法 和 线性 回归 模型 都 没有 进行 深入 探索 。 


10.5 社会 影响 力 分 析 和 病毒 式 营 销 


所 有 的 社交 互动 会 导致 个 人 之 间 的 不 同 程度 的 影响 。 在 传统 的 社交 互动 中 ， 这 有 时 被 
称 为 “口碑 ”的 影响 。 这 个 一 般 性 原则 也 适用 于 在 线 社交 网 络 。 例 如 ， 当 一 个 演员 在 推 特 
中 发 布 了 一 条 消息 时 ， 演 员 的 粉丝 将 收 到 该 消息 。 粉 丝 们 可 能 经 常 在 网 络 中 转发 这 个 消 
息 。 这 会 导致 信息 、 想 法 和 意见 在 社交 网 络 中 传播 。 许 多 公司 把 这 种 信息 的 传播 看 成 是 一 
个 有 价值 的 广告 渠道 。 通 过 将 一 个 热门 的 消息 推送 给 正确 的 参与 者 ， 若 该 消息 通过 社交 网 
络 作为 级 联 的 方式 来 传播 ， 就 可 以 产生 价值 数 百 万 美元 的 广告 效益 。 这 种 方法 允许 信息 在 
网 络 中 快速 的 传播 ， 这 与 一 种 病毒 在 生物 流行 病 或 计算 机 网 络 中 传播 的 方式 大 致 相同 。 事 
实 上 ， 这 两 种 情况 下 使 用 的 模型 都 有 许多 相似 之 处 。 因 此 ， 这 种 影响 市 场 参与 者 的 方法 也 
被 称 为 病毒 式 营销 。 

不 同 的 演员 有 不 同 的 能 力 来 影响 社交 网 络 中 的 同龄 人 。 控 制 一 个 演员 影响 力 的 两 个 最 
常见 因素 如 下 : 
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1) 一 个 演员 在 社交 网 络 结构 中 的 核心 地 位 是 其 影响 力 水 平 的 一 个 关键 因素 。 例 如 ， 
核心 地 位 高 的 演员 可 能 更 具有 影响 力 。 在 有 向 网 络 中 ,声望 较 高 的 演员 可 能 更 具有 影响 
力 。L22] 讨论 了 核心 地 位 和 声望 的 度量 。PageRank 也 可 以 用 作 核 心地 位 和 声望 的 
度量 。 

2) 网 络 中 的 边 通常 与 权重 相关 联 ， 其 中 权重 取决 于 相应 的 一 对 角色 可 能 相互 影响 
的 可 能 性 。 根 据 所 使 用 的 扩散 模型 ， 这 些 权 重 有 时 可 以 被 直接 解释 为 影响 传播 概率 。 有 
几 个 因素 可 能 决定 这 些 概率 。 例 如 ， 一 个 知名 的 个 体 可 能 比 不 太 出 名 的 个 体 具 有 更 高 的 
影响 力 。 同 样 ， 长 期 以 来 一 直 是 朋友 的 两 个 人 更 有 可 能 相互 影响 。 通 常 假设 影响 传播 概 
率 已 经 可 用 于 分 析 的 目的 ， 尽管 最 近 的 一 些 方 法 显示 了 如 何以 数据 驱动 的 方式 估计 这 些 
概率 。 

一 个 影响 力 传播 模型 被 用 来 量化 上 述 因 素 的 确切 影响 。 这 些 模型 也 称 为 扩散 模型 。 影 
响 力 传播 模型 的 主要 目标 是 确定 一 组 种 子 结 点 ， 以 最 大 化 信息 传播 的 影响 。 在 这 个 意义 
上 ， 影 响 最 大 化 模型 可 以 被 看 作 是 对 商家 推荐 有 价值 的 社交 演员 。 因 此 ， 影 响 最 大 化 问题 
如 下 定义 : 

定义 10.5.1 (影响 最 大 化 ) ”已 知 一 个 社交 网 络 G 二 (N，A)， 确 定 一 个 包含 个 种 
子 结 点 的 集合 S， 其 会 影响 最 大 化 网 络 中 的 影响 的 总 体 传播 。 

k 的 值 可 以 被 视 为 允许 最 初 影 响 的 种 子 结 点 的 数量 的 预算 。 这 与 广告 商 所 面临 的 初始 
广告 能 力 预算 的 现实 生活 模型 是 一 致 的 。 社 会 影响 力 分 析 的 目标 是 通过 口碑 的 方式 来 扩展 
这 种 初始 广告 能 力 。 

每 个 模型 或 启发 式 的 方法 可 以 使 用 S 的 一 个 由 f(。) 表 示 的 函数 来 量化 一 个 结 点 的 影 
响 水 平 。 该 函数 将 结 点 的 子 集 映 射 到 表示 影响 力 数 值 的 实数 上 。 因 此 ， 在 选择 用 于 量化 给 
ERA S 的 影响 (5) 的 模型 之 后 ， 优 化 问题 是 确定 使 14(S) 最 大 化 的 集合 S。 在 非常 多 的 
影响 分 析 模 型 中 的 一 个 有 趣 的 属性 是 优化 函数 f(S) 是 子 模块 化 的 。 

子 模块 化 是 什么 意思 ? 这 是 用 于 表达 收益 递减 的 自然 规律 的 一 种 数学 方式 ， 适 用 于 集 
合 。 换 句 话 说 ， 如 果 SST， 则 通过 将 个 体 添 加 到 集合 T 而 获得 的 附加 影响 不 能 大 于 将 相 
同 个 体 添 加 到 集合 S 的 附加 影响 。 因 此 ， 相 同 个 体 的 增 量 影响 会 减 小 ， 因 为 较 大 队列 的 超 
集 可 作为 种 子 来 取得 。 集 合 S 的 子 模块 化 正式 定义 如 下 : 

定义 10.5.2 〈 子 模块 化 ) ”车 对 于 任何 集合 S、 了 的 集合 对 ， 满 足 SGT， 并 且 对 于 
任何 集合 元 素 e， 满 足 如 下 条 件 为 真 ， 则 说 函数 f(。) 是 子 模块 化 的 : 

FSU fen = SF (10- 20) 
几乎 所 有 用 于 量化 影响 力 的 自然 模型 都 是 子 模块 化 的 。 子 模块 化 在 算法 上 是 方便 的 ， 因 为 
只 要 对 于 S 的 给 定 值 ， 可 以 估计 f(S)， 就 存在 用 于 最 大 化 子 模块 化 函数 的 非常 有 效 的 贪 
心 优化 算法 。 该 算法 通过 设置 S 一 人 } 为 开始 ， 并 逐渐 地 将 结 点 添加 到 S， 以 尽 可 能 地 增加 
f(S) 的 值 。 重 复 该 过 程 直 到 集合 S 包含 所 需 数量 的 影响 者 &。 该 启发 式 算法 的 近似 水 平 是 
基于 对 子 模块 化 函数 优化 的 著名 经 典 结果 。 

引 理 10.5.1 用 于 最 大 化 子 模块 化 函数 的 贪心 算法 提供 了 一 个 目标 函数 值 的 解 ， 该 目 


标 函 数值 至 少 为 最 优 值 的 (<<) aa. e 是 自然 对 数 的 底数 。 


e 
因此 ， 这些 结果 表明 ， 可 以 有 效 地 优化 F(S)， 只 要 可 以 为 给 定 的 一 组 结 点 S 定义 适当 的 
子 模块 化 影响 力 函 数 FCS). 
定义 结 点 集 S 的 影响 力 函 数 f(S) 的 两 种 常用 方法 是 线性 阅 值 模型 和 独立 级 联 模型 。 
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这 两 种 扩散 模型 都 是 在 社会 影响 力 分 析 最 早 的 工作 之 中 被 提出 的 。 这 些 扩 散 模型 中 的 一 般 
操作 性 假设 是 结 点 要 么 处 于 活路 状态 ,要么 处 于 非 活 跃 状态。 直觉 上 ,一 个 活跃 的 结 点 已 
经 受到 了 所 期 望 行为 集 的 影响 。 一 且 一 个 结 点 移动 到 活跃 状态 ， 它 就 不 会 被 停 用 。 根 据 模 
型 ,活跃 结 点 可 以 在 一 段 时 间 内 或 者 更 长 时 间 段 内 触发 对 相 邻 结 点 的 激活 。 连 续 激活 结 
点 ， 直 到 在 给 定 的 一 次 迭代 中 不 再 有 结 点 被 激活 。/(S) 的 值 可 以 被 计算 为 激活 终止 时 所 激 
活 的 结 点 总 数 。 


10.5.1 线性 阅 值 模型 


在 该 模型 中 ,算法 最 初 以 一 个 活跃 的 种 子 结 点 集 S 开始 ， 并 且 基 于 相 邻 活跃 结 点 的 影 
响 力 迭代 地 增加 活跃 结 点 的 数量 。 允 许 活跃 结 点 在 整个 算法 执行 过 程 中 通过 多 次 迭代 来 影 
响 其 邻居 结 点 ， 直 到 不 再 有 结 点 被 激活 。 利 用 指定 边 的 权重 bj 的 一 个 线性 函数 可 以 量化 
相 邻 结 点 的 影响 力 。 对 于 网 络 G 二 (N，A) 中 的 每 个 结 点 i?， 如 下 假定 为 真 : 
SND (10-21) 
j: PEA 
每 个 结 点 i 与 一 个 在 算法 执行 过 程 中 固定 在 前 面 并 保持 恒定 的 随机 阔 值 0 一 UL0，1] 相 关 
联 。 在 给 定时 刻 ， 结 点 i 对 i 的 活跃 邻居 的 总 影响 1( 店 被 计算 为 i 的 所 有 活跃 邻居 结 点 的 
MH bj ZA. 
IG) = oes bij (10- 22) 
j: j EA JEH RH 
4IO>6, AA i E-TERPSEARKRKA. EGE, HARA Aa Aa 
激活 。 总 影响 f(S) 可 以 被 度量 为 由 一 给 定 种 子 集 S 所 激活 的 结 点 数 。 给 定 种 子 集 S 的 影 
响 力 1(S) 通 常 使 用 模拟 方法 来 计算 得 到 。 


10. 5.2 独立 级 联 模型 


在 上 述 线性 国 值 模型 中 ,一旦 一 个 结 点 变 为 活路 状态， 它 会 有 很 多 机 会 来 影响 其 邻居 
结 点 。 随 机 变量 0; 与 一 个 阐 值 形式 的 结 点 相关 联 。 另 一 方面 ， 在 独立 级 联 模型 中 ， 在 一 个 
结 点 变 为 活路 状态 之 后 ， 其 仅 获 得 一 次 激活 其 邻居 的 机 会 ， 其 传播 概率 与 边 相 关联 。 与 一 
条 边 相 关联 的 传播 概率 由 p; 表示 。 在 每 次 迭代 中 ， 仅 允许 新 的 活跃 结 点 影响 其 邻居 ， 且 
这 些 邻 居 是 尚未 被 激活 的 。 对 于 一 个 给 定 的 结 点 j， 连 接 它 到 其 新 的 活路 邻居 i 的 每 条 边 
G, D, DRS pi; 独立 地 翻转 一 枚 硬币 。 如 果 为 边 (i，j) 投掷 硬币 的 结果 是 成 功 
的 ， 则 结 点 7 被 激活 。 如 果 结 点 7 被 激活 ， 它 将 在 下 一 次 迭代 中 获得 一 个 机 会 来 影响 它 的 
邻居 。 在 一 次 迭代 中 没有 新 的 结 点 被 激活 的 情况 下 ， 算 法 终止 。 影 响 力 函 数值 等 于 终止 时 
活跃 结 点 的 数量 。 因 为 在 算法 的 运行 过 程 中 ， 仅 允许 结 点 影响 其 邻居 一 次 ， 所 以 在 算法 的 
运行 过 程 中 ， 每 条 边 最 多 抛掷 一 次 硬币 。 


10.5.3 影响 力 函 数 评 估 


线性 阔 值 模型 和 独立 级 联 模型 都 被 设计 通过 使 用 一 个 模型 来 计算 影响 力 函 数 1(S)。f(S) 
的 估计 通常 通过 模拟 来 完成 。 

例如 ， 考 虑 线性 阐 值 模型 的 情况 。 对 于 一 个 给 定 的 种 子 结 点 集 S， 可 以 使 用 随机 数 生 
成 器 来 设置 结 点 处 的 阔 值 。 在 设置 了 赣 值 之 后 ， 可 以 使 用 从 S 中 的 种 子 结 点 开始 的 任何 确 
定性 图 搜索 算法 来 标记 活跃 结 点 ， 并 且 当 阔 值 条 件 满足 时 逐渐 激活 结 点 。 可 以 在 随机 生成 
HAMAR EA RRA, 并且 可 以 对 结果 取 平 均值 以 获得 更 健壮 的 估计 。 
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在 独立 级 联 模型 中 ， 可 以 使 用 一 个 不 同 的 模拟 。 对 于 每 条 边 ， 可 以 翻转 一 枚 具有 概 
率 基 的 硬币 。 如 果 投 掷 硬 币 是 成 功 的 ， 边 则 被 指定 为 活 的 。 可 以 看 出 ， 当 S 中 至 少 有 
一 个 结 点 到 该 结 点 存在 一 条 活 边 路 径 时 ， 该 结 点 将 最 终 被 独立 级 联 模型 激活 。 这 可 以 用 
于 通过 模拟 来 估计 (最 终 ) 活跃 集 的 大 小 。 在 不 同 的 运行 中 重复 计算 ， 并 对 结果 取 平 
均值 。 

线性 阔 值 模型 和 独立 级 联 模型 都 是 子 模块 化 优化 问题 的 证 明 ， 可 以 在 10.7 节 中 带 有 
指示 的 地 方 找到 。 但 是 ， 这 个 属性 并 不 是 特定 于 这 些 模型 的 。 子 模块 化 是 收益 递减 法 则 的 
一 个 非常 自然 的 结果 ， 适 用 于 个 人 影响 力 在 较 大 群体 中 的 增 量 影响 。 因 此 ， 大 多 数 合理 的 

340| 影响 力 分 析 模 型 将 满足 子 模块 化 。 


10. 5.4 社交 流 中 的 目标 影响 力 分 析 模 型 


上 述 的 影响 力 分 析 模 型 是 高 度 静 态 的 ， 对 于 感 兴趣 的 特定 主题 是 完全 不 确定 的 。 考 虑 
一 个 场景 ， 棒 球 设备 中 的 经 销 商 希望 使 用 推 特 流 来 影响 感 兴趣 的 客户 。 网 络 上 最 有 影响 力 
的 演员 通常 是 与 主题 无 关 的 ， 可 能 对 棒球 不 感 兴趣 。 例 如 ， 如 果 一 个 人 使 用 推 特 中 一 个 演 
员 粉 丝 的 数量 作为 其 影响 力 的 粗略 代理 ,那么 很 容易 看 出 ， 这 些 人 通常 是 著名 的 演员 、 政 
治 家 或 运动 员 。 针 对 著名 政治 家 的 关于 棒球 设备 的 推 文 或 宣传 不 一 定 是 经 销 商 增加 产品 覆 
盖 面 的 最 有 效 途径 。 然 而 ， 对 于 经 销 商 来 说 ， 影 响 运动 员 ， 尤 其 是 棒球 运动 员 ， 一 定 是 有 
用 的 。 显 然 ， 上 一 节 的 影响 力 挖掘 方法 将 无 法 实现 这 些 目标 。 此 外 ， 在 上 一 节 中 假设 的 边 
的 影响 力 传播 概率 是 可 用 的 。 这 个 概率 的 确定 也 需要 一 个 单独 的 模型 ， 因 为 这 些 信息 不 能 
直接 从 推 特 流 中 获得 。 因 此 ， 上 一 节 讨 论 的 影响 力 分 析 模 型 是 不 完整 的 ， 因 为 它们 假设 了 
比 从 基本 数据 中 真实 获得 的 更 多 输入 。 事 实 上 ， 用 户 可 以 使 用 的 唯一 数据 是 推 特 流 ， 其 中 
包含 了 大 量 推 文 。 通 常 ， 诸 如 推 特 的 流 被 称 为 社交 流 。 在 这 样 的 流 中 ， 网 络 中 的 趋势 可 能 
随 着 时 间 的 推移 而 演变 ， 最 相关 的 影响 者 也 可 能 随时 间 而 发 生变 化 。 

在 社交 流 的 背景 下 ， 使 影响 力 分 析 模 型 以 数据 驱动 或 以 内 容 为 中 心 是 很 重要 的 。 在 
[573] 讨论 的 方法 中 ， 通 过 根据 社交 流 的 表达 内 容 选 择 一 组 相关 的 关键 词 ， 该 方法 是 主题 
敏感 的 。 然 后 可 以 在 网 络 中 追踪 这 些 关键 词 的 流 ， 以 确定 各 种 演员 是 如 何 相互 影响 的 ， 具 
体 到 当前 的 主题 。 例 如 ， 棒 球 制造 商 将 选择 与 棒球 主题 相关 的 一 组 关键 词 。 因 此 ， 特 征 选 
择 的 初始 阶段 是 至 关 重 要 的 。 例 如 ， 在 推 特 流 的 上 下 文中 ， 为 了 进行 追踪 ， 可 能 使 用 属于 
特定 主题 的 标签 。 

在 选择 这 些 关键 词 之 后 ， 他 们 通过 网 络 结构 的 传播 是 根据 基本 流 路 径 进行 分 析 的 。 
一 条 有 效 的 流 路 径 是 一 系列 按照 顺序 推送 (或 发 布 ) 相同 关键 词 的 演员 ， 演 员 序列 也 通 
过 社交 网 络 的 链接 进行 连接 。 例 如 ， 考 虑 我 们 有 一 个 与 棒球 比赛 有 关 的 标签 的 情况 。 通 
过 演员 的 社交 网 络 ， 这 个 标签 的 传播 路 径 提 供 了 非常 有 用 的 与 棒球 话题 相关 的 特定 主题 
影响 的 信息 。 例 如 ， 在 图 10- 12 所 示 的 网 络 中 ， 沿 着 各 种 路 径 的 # baseball Al + sammy- 
sosa 的 标签 虽 流 是 社交 网 络 中 的 转 推 (或 复制 行为 ) 的 结果 。 在 这 种 情况 下 ， 很 明显 ， 
Sayani 是 棒球 的 特定 话题 中 有 影响 力 的 推 主 ， 而 且 她 的 关于 这 个 话题 的 推 特 通常 被 认为 是 
具有 权威 性 的 ， 可 以 被 其 他 参与 者 所 接受 。 然 而 ， 如 果 这 些 标签 与 其 他 的 与 棒球 无 关 的 主 
题 相 关 ， 那么 即使 有 相同 的 传播 模式 ，Sayani 也 不 会 在 棒球 的 特定 情境 下 被 认为 是 有 影响 

力 的 。 


© Sammy Sosa 是 一 位 退役 的 职 棒 联 盟 运 动员 。 
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图 10-12 与 棒球 相关 的 推 特 的 传播 路 径 示 例 


有 影响 力 的 演员 经 常会 出 现在 这 些 路 径 的 早期 阶段 。 因 此 ， 通 过 确定 频繁 出 现 的 路 
径 ， 还 可 以 确定 各 种 级 联 中 的 重要 焦点 中 心 。[L573] 中 的 工作 使 用 了 一 种 有 约束 的 序列 模 
FS ERAS ， 以 确定 流 中 最 常 发 生 的 流 路 径 。 这 些 流 路 径 的 早期 点 作为 当前 特定 于 主 
题 的 有 影响 力 的 演员 。 其 他 最 近 的 方法 明确 地 使 用 了 主题 建 模 技术 来 发 现 这 些 有 影响 力 的 
演员 。 有 关 这 些 方法 的 更 多 细节 ， 请 参阅 10.7 节 。 


10.6， 小 结 


实际 情景 中 的 许多 推荐 问题 能 够 以 在 网 络 中 的 结构 化 推荐 问题 来 建 模 。 例 如 ， 传 统 的 
协同 过 滤 问 题 可 以 用 用 户 一 物品 图 来 建 模 。 各 种 方法 ， 例 如 排序 技术 、 集 合 分 类 方法 和 链 
接 预测 技术 都 可 以 用 在 这 些 用 户 一 物品 图 中 。 

排序 和 搜索 是 与 推荐 分 析 密 切 相关 的 两 个 问题 。 主 要 区 别 在 于 后 者 的 结果 是 针对 特定 
用 户 进 行 个 性 化 的 。 近 年 来 ， 用 于 搜索 和 推荐 的 方法 越 来 越 多 地 被 整合 到 一 起 ， 因 为 搜索 
提供 者 已 经 开始 使 用 用 户 特 定 的 信息 来 个 性 化 搜索 结果 。 结 构 化 推荐 算法 的 许多 变 体 可 以 
与 社交 网 络 分 析 或 用 户 一 物品 图 相 结 合 使 用 。 例 如 ， 集合 分 类 和 链接 预测 可 以 与 用 户 - 物 
品 图 一 起 使 用 。 

在 集合 分 类 中 ， 目 标 是 从 项 点 的 一 个 子 集 处 预先 存在 的 标签 中 推导 出 剩余 项 点 的 标 
签 。 集 合 分 类 技术 在 社交 网 络 中 的 以 内 容 为 中 心 的 推荐 分 析 情 境 中 特别 有 用 。 

在 链接 预测 问题 中 ， 目 标 是 预测 来 自 网 络 中 当前 可 用 结构 的 链接 。 结 构 化 方法 使 用 局 
部 聚 类 的 方法 ， 如 Jaccard 度量 或 个 性 化 PageRank 值 以 进行 预测 。 有 监督 的 方法 能 够 有 
区 别 性 地 确定 链接 预测 的 最 相关 特征 。 链 接 预 测 方法 可 用 于 预测 社交 网 络 中 的 朋友 。 

社交 网 络 通 常用 于 使 用 “口碑 ”技术 来 影响 个 人 。 这 些 方法 可 以 被 看 作 是 为 了 病毒 式 
营销 而 向 商家 做 推荐 的 技术 。 通 常 ， 具 有 中 心地 位 的 角色 在 网 络 中 更 具 影 响 力 。 扩 散 模 型 
用 于 表征 社交 网 络 中 信息 的 流动 。 这 些 模型 的 两 个 例子 包括 线性 阐 值 模型 和 独立 级 联 模 
型 。 近 年 来 ,已 经 将 这 些 方 法 扩展 到 在 社交 流 情境 中 使 用 主题 特定 的 技术 中 。 


10.7 HALE 


[104, 465] 中 描述 了 PageRank MH. HITS 算法 也 用 于 主题 敏感 搜索 。 主 题 敏感 
的 PageRank 算法 在 [243] 中 有 描述 ，SimRank 算法 在 [278] 中 有 描述 。 在 [16，81，350， 
602，640，663] 中 讨论 了 在 各 种 形式 的 社交 推荐 系统 中 使 用 个 性 化 PageRank 算法 的 方 
法 。[350] 中 的 工作 展示 了 如 何 使 用 随机 游 走 来 进行 杂货 购物 的 推荐 。 在 [639] 中 讨论 
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了 在 图 上 使 用 随机 游 走 的 时 间 推 荐 。 

迭代 分 类 算法 CCO 已 经 出 现在 许多 不 同 数据 域 的 情境 之 中 ,包括 文档 数据 3] 和 关 
系数 据 [453] 。 在 这 个 框架 内 已 经 使 用 了 几 种 基本 分 类 器 ， 如 逻辑 回归 5B?9] 和 一 个 加 权 的 投票 
分 类 器 B87 。 本 章 的 讨论 基于 [453]。 随 机 游 走 方法 的 许多 不 同 变 体 也 被 提出 [555'6468  。 有 
向 图 的 集合 分 类 在 [675] 中 讨论 。 关 于 结 点 分 类 方法 的 详细 综述 可 以 在 [77，375] PR 
到 。 在 [388] 中 可 以 找到 一 个 集合 分 类 工具 包 。 

在 [354] 中 提出 了 社交 网 络 的 链接 预测 问题 。 本 章 中 讨论 的 方法 都 是 基于 这 项 工作 
的 。 在 [355] 中 讨论 了 有 监督 的 方法 的 优点 ， 和 矩阵 分 解法 在 [432] 中 讨论 。 链 接 预 测 的 
和 矩阵 分 解 可 以 看 作 类 似 用 于 协同 过 滤 的 类 似 方法 。 关 于 社交 网 络 分 析 的 链接 预测 方法 的 综 
述 可 以 在 [42] 中 找到 。 用 于 有 符号 的 链接 预测 的 方法 在 [157，324-326，346，591] 中 
讨论 。L324，325] 中 讨论 了 用 于 协同 过 滤 的 其 他 有 符号 网 络 技术 。[157] 中 的 工作 是 值 
得 注意 的 ， 因 为 它 展示 了 用 于 链接 预测 和 协同 过 滤 的 矩阵 分 解 方法 之 间 的 联系 。 有 大 量 的 
和 不 断 增长 的 研究 是 在 异 构 网 络 的 背景 下 [65785577 进行 的 ， 该 网 络 中 多 种 类 型 的 链接 是 相 
互 预测 的 。 在 其 他 相关 工作 中 ， 预 测 了 多 重 网 络 的 链接 [488] 。 

影响 力 分 析 的 问题 已 经 在 病毒 式 营销 和 社交 网 络 的 背景 下 进行 了 研究 。 这 个 问题 首先 
在 [176，510] 病毒 式 营 销 的 背景 下 进行 研究 。 随 后 ， 在 社交 网 络 的 背景 下 也 研究 了 这 个 
问题 ?5 。 本 工作 提出 了 线性 阔 值 和 独立 级 联 模型 。L152] 提出 了 一 种 度 折扣 的 启发 式 方 
法 。 关 于 子 模块 化 性 质 的 讨论 可 以 在 [452] 中 找到 。 其 他 最 近 的 社交 网 络 影响 力 分 析 模 
型 在 (153, 154, 369, 589] 中 有 所 讨论 。 社 会 影响 力 模型 的 主要 问题 之 一 是 学 习 影 响 力 
传播 概率 很 困难 ， 尽 管 最 近 这 个 问题 受到 了 一 定 关注 .311。 最 近 的 工作 也 展示 了 如 何 直 接 


从 社交 流 中 进行 影响 力 分 析 F80"23,573] 。 [573] 中 的 方法 也 展示 了 如 何 使 这 种 方法 主题 敏 
KR. [575] 提供 了 一 个 关于 社会 影响 力 分 析 模 型 和 算法 的 综述 。 
10.8 习题 


1; 将 PageRank 算法 应 用 于 图 10-1b WAP, 分别 使 用 0. 1、0.2 和 0,4 作为 传递 概率 。 这 对 提高 传递 概 
率 的 死 端 分 量 (概率 ) 有 什么 影响 ? 

, 重复 上 述 习题 ， 除 了 从 结 点 1 执行 重启 以 外 ， 稳 态 概 率 是 如 何 通 过 增加 传递 概率 而 受到 影响 的 ? 

. 可 以 看 出 图 10-1b 中 图 的 转换 矩阵 将 具有 多 于 一 个 的 特征 值 为 1 的 特征 向 量 。 为 什么 在 这 种 情况 下 ， 
具有 单位 特征 值 的 特征 向 量 不 是 唯一 的 ? 

. 在 一 个 隐 式 反馈 矩阵 上 实现 用 于 协同 过 滤 的 个 性 化 PageRank 方法 。 你 的 实现 应 该 自动 地 构建 用 户 一 
物品 图 。 

5. 实现 用 于 链接 预测 的 Jaccard 和 Adamic- Adar 度量 。 

. 创建 一 个 可 以 进行 度 的 归 一 化 的 链接 预测 度量 ， 其 中 这 个 归 一 化 可 由 Jaccard 度量 和 Adamic- Adar 度 
量 得 到 。 

. 实现 用 于 影响 力 分 析 的 线性 国 值 和 独立 级 联 模 型 。 

8. 描述 用 于 无 向 链接 预测 的 在 协同 过 滤 中 基于 用 户 的 近邻 模型 的 适应 性 。 在 无 向 网 络 中 适应 基于 用 户 的 
方法 或 基于 物品 的 方法 是 否 有 所 区 别 ? 在 有 向 网 络 中 又 会 是 什么 情况 ? 

. 描述 第 3 章 中 的 稀 朴 线性 模型 对 有 向 链接 预测 的 适应 性 。 
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如 果 社 会 是 一 大 块 冻 结 的 冰 ， 那 社会 生活 的 艺术 就 是 在 冰 上 漂亮 地 滑行 。 
Letitia Elizabeth Landon 





11.1 引言 


随 着 得 到 用 户 信息 的 渠道 增加 ， 商 家 可 以 直接 用 协同 过 滤 算 法 合并 社交 数据 。 其 中 的 
一 些 方法 在 第 10 章 讨论 过 了 ， 这 章 的 主题 是 推荐 结 点 和 链接 。 社 交 上 下 文 是 一 个 更 广泛 
的 概念 ， 它 不 仅 包 括 社交 (网络 ) 链接 ， 还 包括 各 种 辅助 信息 ， 比 如 标签 或 者 分 众 分 类 。 
此 外 ， 也 可 以 从 网 络 无 关 的 角度 把 社交 上 下 文 看 作 是 上 下 文敏 感 的 推荐 系统 的 一 个 特例 
(第 8 章 )。 社 交 上 下 文 导 致 了 有 许多 人 为 的 因素 ， 比 如 信任 。 当 用 户 了 解 到 参与 反馈 的 人 
的 身份 时 ， 信任 因子 就 起 到 了 很 重要 的 作用 。 尽 管 这 章 的 内 容 和 第 10 章 关系 密切 ， 但 这 
章 也 有 足够 鲜明 的 理由 被 作为 单独 的 一 章 。 特 别 地 ， 我 们 将 学 习 推 荐 系统 中 社交 上 下 文 的 
以 下 几 方 面 : 

1) 社交 上 下 文 作为 上 下 文敏 感 的 推荐 系统 的 一 个 特例 : 上 下 文敏 感 的 推荐 系统 在 第 8 
章 已 经 讨论 过 了 。 一 个 上 下 文 推荐 的 重要 框架 是 多 维 模型 [5] 。 一 种 可 能 的 上 下 文 形式 是 把 
社交 上 下 文 当 作 辅 助 信息 来 提高 推荐 过 程 的 有 效 性 。 例 如 ， 一 个 用 户 在 选择 所 观看 的 电影 
时 可 能 依赖 于 与 她 观看 电影 的 伴 个 。 换 名 话说， 用 户 和 她 的 朋友 所 观看 的 电影 类 型 会 与 和 
她 父母 观看 的 电影 类 型 有 所 不 同 。 因 此 不 需要 使 用 社交 网 络 的 结构 ， 而 是 用 多 维 模型 来 处 
理 推 荐 。 

2) 从 以 网 络 为 中 心 和 以 信任 为 中 心 的 角度 看 社交 上 下 文 : 在 这 种 情况 下 ,假设 商家 
知道 用 户 的 社交 结构 。 用 户 会 经 常 向 朋友 们 询问 关于 电影 或 者 餐馆 之 类 的 建议 。 因 此 ， 用 
户 的 社交 结构 可 以 被 看 作 是 一 个 对 推荐 过 程 有 益 的 社交 信任 网 络 。 例 如 ， 如 果 有 一 位 用 户 
的 很 多 朋友 都 看 过 一 部 电影 ， 那 么 她 很 可 能 也 想 看 这 部 电影 。 此 外 ， 用 户 与 一 个 对 电影 有 
兴趣 的 社区 关系 紧密 也 可 以 作为 用 户 兴趣 的 进一步 证 据 。 因 此 ， 社 交 结 构 和 邻近 用 户 的 兴 
趣 在 推荐 过 程 中 起 着 关键 作用 。 

在 一 些 社交 网 络 中 ， 比 如 Epinions. comL”%5] ， 信 任 网 络 是 建立 在 用 户 中 的 ， 它 提供 了 
在 推荐 过 程 中 用 户 对 其 他 人 意见 的 依赖 程度 。 信 任 因 子 是 特别 重要 的 ， 因 为 可 以 通过 一 个 
用 户 在 过 去 所 信任 的 其 他 用 户 的 评分 模式 来 更 好 地 预测 她 的 个 人 兴趣 。 当 前 的 研究 工作 已 
表明 信任 因子 的 加 入 能 显著 地 提高 推荐 效果 。 其 方法 和 第 10 章 讨 论 的 以 网 络 为 中 心 的 方 
法 比较 相似 。 在 这 里 ， 我 们 对 这 些 方法 做 一 个 更 加 细致 的 讨论 ， 特 别 是 在 以 信任 为 中 心 的 
系统 中 。 

3) 从 用 户 交 互 的 角度 : 用 户 与 社交 网 络 的 交互 创造 了 许多 反馈 形式 ， 比 如 评论 或 标 
答 。 这 些 标签 可 以 被 看 作 是 协同 注释 和 划分 内 容 的 大 众 分 类 (folksonomy)。 这 些 大 众 分 
类 非常 丰富 ， 可 以 被 用 于 改进 推荐 过 程 。 这 些 方法 和 以 内 容 为 核心 的 推荐 密切 相关 ， 是 协 
同和 以 内 容 为 中 心 的 方法 的 整合 。 这 是 非常 自然 的 事情 ， 因 为 有 足够 的 数据 可 以 用 于 协同 
过 滤 和 以 内 容 为 核心 的 推荐 系统 。 
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值得 注意 的 是 ， 这 些 方法 适用 于 完全 不 同 的 推荐 环境 和 输入 数据 。 此 外 ， 不 同 的 推荐 
环境 下 会 以 不 同 的 形式 使 用 社交 信息 。 社 交 推 荐 系统 可 以 从 不 同 的 角度 被 理解 ， 这 取决 于 
是 否 将 社交 参与 者 当 作 上 下 文 、 同 行 推荐 者 或 交互 数据 的 提供 者 。 

在 本 章 中 ,我 们 将 讨论 所 有 上 述 情景 下 的 社交 推荐 系统 。 我 们 将 讨论 应 用 每 种 方法 的 
关键 设置 和 使 得 每 种 方法 有 效 性 最 大 化 的 设置 。 我 们 还 将 讨论 有 多 少 种 技术 和 之 前 的 章节 
中 讨论 的 方法 有 关联 。 利 用 多 维 的 上 下 文 来 解决 社交 上 下 文 和 第 8 章 的 技术 紧密 相关 。 而 
以 网 络 为 核心 的 方法 和 第 10 章 介 绍 的 技术 关系 密切 。 本 章 的 讨论 按照 涉及 的 社交 数据 
展开 。 

本 章 安排 如 下 。 在 11.2 节 中 ， 我们 将 讨论 对 社交 上 下 文 的 使 用 ， 即 把 其 当 作 社交 推 
荐 系统 的 一 种 特例 。 换 句 话说 ， 我 们 将 讨论 使 用 多 维 模型 [5 来 解决 社交 数据 问题 。 以 网 络 
为 中 心 的 社交 推荐 方法 在 11. 3 节 中 讨论 。 用 户 交 互 的 社交 推荐 在 11. 4 节 中 讨论 。 总 结 在 
11. 5 节 中 给 出 。 


11.2 社交 上 下 文 的 多 维 模型 


在 第 8 章 中 提 到 的 多 维 模型 是 在 推荐 过 程 中 并 人 社交 信息 的 最 简单 的 方法 。 这 种 方法 
的 优点 是 ， 我 们 可 以 通过 利用 第 8 章 的 基于 降 维 的 方法 来 重用 传统 协同 过 滤 模 型 。 比 如 ， 
使 用 与 社交 上 下 文 相 关联 的 评分 是 使 用 这 种 方法 的 一 个 实例 。 社 交 上 下 文 的 数据 可 以 是 直 
接 采 集 也 可 以 是 从 其 他 来 源 推导 得 到 。 关 于 收集 社交 上 下 文 数 据 的 一 些 典型 模式 如 下 
所 述 : 

1) 显 式 反馈 : 如 果 数 据 是 评分 项 这 样 直接 的 反馈 信息 ， 那 么 系统 就 可 以 设计 成 捕获 
多 种 类 型 的 信息 ， 比 如 谁 和 谁 一 起 看 了 电影 这 样 的 细节 。 同 样 ， 旅 游 的 目的 地 可 能 取决 于 
旅行 的 伴侣 。 例 如 ， 游 客 在 有 和 孩子 陪同 时 更 有 可 能 前 往 迪 士 尼 乐园 ， 而 不 是 拉 斯 维 加 斯 。 
这 种 方法 的 主要 挑战 是 ， 用 户 一 般 不 是 很 愿意 花 太 多 精力 提供 这 些 详 细 信息 同时 提供 评分 。 
收集 足够 多 的 数据 变 得 困难 。 然 而 ， 当 可 以 通过 显 式 反馈 来 收集 这 样 的 数据 时 ， 质 量 一 般 
都 很 高 。 因 此 ， 如 果 该 方法 有 实行 的 可 能 ， 那 么 它 应 该 作为 首选 。 

2) RARA: 用 户 的 社交 数据 可 以 通过 某 物 品 是 何 时 何 地 购 人 的 或 者 他 的 其 他 社交 
活动 推断 出 。 例 如 ， 如 果 一 个 游客 使 用 同样 一 张 信 用 卡 为 自己 和 她 的 旅 伴 预订 套 票 ， 这 就 
为 旅行 社 未 来 的 推荐 系统 提供 了 有 用 的 上 下 文 信息 。 在 一 些 情况 下 ， 相 关内 容 数据 的 收集 
可 能 需要 利用 机 器 学 习 的 方法 。 随 着 手机 的 日 益 普 及 和 执行 在 线 用 户 活 动 分 析 能 力 的 提 
Fr, 手机 以 自动 化 的 方式 来 收集 这 些 信息 变 得 越 来 越 容易 。 

假设 U 是 用 户 的 集合 ,I 是 物品 的 集合 ,，C 是 代表 社交 上 下 文中 可 供 选 择 元 素 的 集 
合 。 评 分 R 则 可 被 看 作 是 gr 在 三 维 评分 立方 体 R 上 的 映射 。 映 射 的 值 域 被 定义 为 UXI 
XxC， 其 范围 对 应 了 评分 值 。 这 个 映射 可 以 写成 如 下 形式 : 

gr:U XIXC— rating 

例如 ， 考 虑 一 个 旅游 推荐 应 用 ， 其 社交 上 下 文 是 旅游 伴侣 。 图 11-1 展示 了 一 个 有 社交 上 
下 文 的 三 维 评分 立方 体 。 这 里 的 物品 即 是 旅游 地 点 ， 社 交 上 下 文 即 是 旅游 伴侣 。 立 方 体 的 
每 个 项 对 应 于 一 个 用 户 在 特定 的 旅游 景点 和 特定 的 社交 上 下 文 的 评分 。 注 意 ， 本 例 是 对 第 
SHA 8- 3 的 简单 调整 。 它 也 可 以 有 多 种 社交 上 下 文 。 在 这 种 情况 下 ， 立 方 体 的 维度 将 相 
应 地 增加 ， 并 可 以 成 为 一 个 包 维 的 评分 立方 体 。 一 个 显著 的 事实 是 ,包含 社交 上 下 文 的 多 
维 模 型 和 其 他 上 下 文 类 型 的 模型 并 没有 太 大 差别 。 因 此 ， 第 8 章 中 的 算法 可 以 以 相对 简单 
的 方式 被 推广 到 现在 的 情况 。 


社交 和 以 信任 为 忠心 的 推荐 系统 259 









在 阴影 切片 上 使 用 传统 
的 协同 过 滤 方 法 来 找到 当 
孩子 作为 旅 伴 时 的 推荐 


图 11-1 在 不 同 社交 上 下 文 下 的 旅游 推荐 (对 第 8 章 的 图 8- 3 稍 作 修改 ) 


其 查询 可 以 把 维度 分 割 成 “什么 ”的 维度 和 “为 谁 ” 的 维度 ， 用 与 多 维 模型 相似 的 方 
式 来 完成 。 一 个 典型 的 查询 如 下 : 

在 “为 谁 ” 维 度 上 的 值 确 定 的 情况 下 ， 判 断 “ 什 么 ”维度 上 最 大 的 有 种 可 能 。 

在 上 述 的 例子 中 ， 有 如 下 可 能 的 不 同 的 查询 : 

1) 对 特定 用 户 ， 确 定 前 & 个 目的 地 。 

2) 对 特定 用 户 ， 确 定 前 & 个 目的 地 -伴侣 对 。 

3) 对 特定 用 户 一 伴侣 对 ， 确 定 前 个 目的 地 。 

4) 对 特定 用 户 一 目的 地 对 ， 确 定 前 个 伴侣 。 

可 以 采用 第 8 章 的 8. 2 节 中 的 降 维 方法 来 回答 这 些 查询 。 设 fr :UXI>rating 是 一 个 
在 二 维 评分 矩阵 R 上 的 传统 协同 过 滤 算法 。 然 后 ， 上 述 每 个 查询 可 以 被 降 维 到 一 个 标准 的 
协同 过 滤 的 问题 。 例 如 ， 要 查询 带 着 孩子 参观 的 最 佳 旅游 地 ， 我 们 可 以 从 原始 的 三 维 评分 
ERE R 提取 相应 的 二 维 矩 阵 及 (和 孩子) 。 在 图 11- 1 中 已 经 用 阴影 来 表示 这 个 内 容 。 此 时 ， 
一 个 标准 协同 过 滤 算 法 就 可 以 应 用 在 这 个 二 维和 矩阵 中 。 在 有 多 个 旅游 伙伴 的 情况 下 ， 内 容 
会 被 设置 成 V。 数 据 立 方 体 中 的 每 个 切片 可 以 被 提取 ， 并 且 评 分 可 以 被 平均 在 不 同上 下 文 
值 对 特定 用 户 一 物品 的 组 合 上 。 这 个 过 程 与 第 8 章 的 公式 (8-2) 非常 相似 : 

gr(User,Item,V) = AVERAGEryevjgr (User, Item, y) 《CT TD) 

因此 ， 通 过 在 社交 上 下 文集 合 V 上 求 平均 切片 ， 可 以 将 该 问题 简化 成 二 维 的 情况 。 类 似 的 
方法 也 可 用 于 不 考虑 任何 特定 上 下 文 的 情况 下 对 给 定 用 户 推 荐 前 个 目的 地 。 在 这 种 情况 
下 ， 可 以 对 所 有 不 同 的 上 下 文 求 出 平均 评分 。 这 种 方法 被 称 为 预 过 滤 (prefiltering)。 然 
而 ， 其 他 的 方法 ， 如 后 过 滤 、 湾 在 因子 模型 或 其 他 机 器 学 习 模 型 ， 也 在 第 11 章 中 有 所 涉 
及 。 在 这 些 设置 下 ， 所 有 这 些 方法 都 可 以 很 容易 地 被 应 用 于 推荐 。 


11.3 以 网 络 为 中 心 的 方法 和 以 信任 为 中 心 的 方法 
以 网 络 为 中 心 的 方法 的 基本 思想 是 ， 一 个 用 户 的 社交 结构 会 对 她 的 品味 、 选 择 或 消费 
模式 产生 深远 的 影响 。 用 户 经 常会 寻求 他 们 的 朋友 有 关 电 影 、 旅 游 或 其 他 方面 的 建议 。 此 
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外 ， 社 会 关系 具有 著名 的 趋同 性 (homophily) 原则 ， 即 连接 的 用 户 往 往 有 相似 的 兴趣 和 
品味 。 这 种 趣味 的 相似 性 往往 导致 用 户 更 信任 和 他 们 有 关联 的 用 户 的 建议 。 有 许多 方法 可 
以 将 这 些 链接 信息 并 人 推荐 过 程 中 。 虽 然 这 样 的 链接 可 能 在 不 同 的 应 用 中 其 有 效 性 不 同 ， 
但 它们 通常 在 冷 启 动 中 都 非常 有 效 ， 尤 其 是 当 特定 用 户 的 评分 数据 很 少 的 时 候 。 在 这 种 情 
况 下 ， 把 知识 并 入 用 户 的 社交 信息 能 有 效 地 帮助 识别 与 用 户 最 相关 的 群体 。 在 下 文中 ,我 
们 将 讨论 一 些 把 社交 知识 并 人 推荐 过 程 的 重要 方法 。 首 先 ， 我 们 将 讨论 两 个 重要 的 概念 : 
信任 和 趋同 性 ， 这 是 两 个 很 相关 的 概念 ， 但 意义 并 不 完全 一 样 。 


11.3.1 收集 数据 来 建立 信任 网 络 


信任 和 趋同 性 都 在 社交 推荐 过 程 中 起 了 重要 的 作用 。 这 些 概念 是 相关 的 ， 但 它们 不 太 
一 样 。 趋 同性 是 指 ， 在 社交 网 络 中 相关 联 的 用 户 的 兴趣 和 品味 往往 相似 。 信 任 是 指 ， 相 比 
其 他 人 ， 用 户 更 可 能 会 信任 他 们 朋友 的 品位 和 推荐 。 在 某 些 情况 下 ， 信 任 是 趋同 性 的 结 
果 。 而 在 网 络 中 被 链接 的 用 户 是 彼此 相似 的 ， 他 们 往往 相互 信任 对 方 的 品位 和 推荐 。 信 任 
和 趋同 性 之 间 的 强 相 关 性 已 在 [224，681] 中 被 证 实 。 

在 一 个 给 定 网 络 中 ， 关 联 用 户 的 确认 可 能 与 信任 有 关 ， 也 可 能 与 趋同 性 有 关 ， 也 可 能 
二 者 此 有 关 。 在 一 些 社交 网 络 中 ， 比 如 脸 书 ， 信 任 和 趋同 性 都 是 相关 的 ， 这 是 因为 链接 通 
常 代 表 用 户 的 朋友 关系 。 事 实 上 ， 信 任 关 系 往往 可 以 从 基于 Web 的 社交 网 络 中 推断 出 
来 [226] 。 许 多 特征 ， 诸 如 特征 相似 度 和 互 发 电子 邮件 都 可 以 用 来 推断 信任 链接 。 例 如 ， 一 
个 人 可 能 会 用 下 面 的 用 户 到 用 户 的 相似 度 i553] 去 推断 用 户 i 和 用 户 j 之 间 的 信任 度 tij: 

_ {Cosine(i,j) 如 果 i 和 ;7 相连 
【未 定义 的 其 他 

余弦 相似 度 是 在 用 户 i 和 用 户 7 的 评分 上 计算 出 来 的 。 需 要 注意 的 是 ， 如 果 i 和 j 没有 连 
接 ， 那么 他 们 之 间 的 信任 度 是 未 定义 的 。 我 们 之 后 将 会 看 到 ， 这 些 未 定义 的 值 也 可 以 用 信 
任 传播 方法 推断 出 来 。 因 此 ， 不 同 于 已 连接 用 户 之 间 的 相似 度 定 义 ， 这 些 方 法 会 用 一 种 不 
同 的 方法 来 推断 未 连接 的 用 户 之 间 的 信任 度 。 

上 述 方法 可 以 被 看 作 是 推断 信任 度 的 一 个 隐 式 的 方式 。 在 一 些 网 络 中 ， 如 Epinions’), 
信任 链接 由 用 户 明确 指定 。 这 种 网 络 的 一 些 例 子 如 下 : 

1) 在 Golbeck 的 Filmtrust 系统 [2 中 中 ， 用 户 将 被 要 求 评价 他 们 对 熟人 的 信任 度 。 然 
后 ， 该 数据 被 推荐 系统 采用 。 

2) 在 Epinions 网 站 5705 中， 用 户 被 明确 要 求 指 出 他 们 信任 或 不 信任 的 其 他 用 户 。 

3) 在 Moleskiing 网 站 [4 中， 用 户 间 的 信任 信息 是 在 显 式 反馈 中 得 到 的 。 用 户 可 以 评价 
其 他 用 户 的 评论 是 否 有 用 。 这 可 以 为 推断 用 户 之 间 的 信任 关系 提供 帮助 。 当 用 户 经 常 对 另 一 
用 户 的 观点 表示 赞同 ， 就 可 以 添加 一 条 从 前 者 到 后 者 的 有 向 边 。 一 种 建 模 方法 是 利用 这 种 频 
率 来 表示 具体 的 信任 值 。[591] 提出 了 这 个 建 模 方法 的 一 个 样 例 ， 但 其 重点 是 研究 不 信任 关 
系 而 不 是 信任 关系 。 一 些 网 站 能 够 支持 用 户 对 评论 留 下 反馈 ， 比 如 Amazon. com, 

4) 信任 和 不 信任 关系 ， 也 在 一 个 名 为 Slashdot] 的 科技 博客 网 站 中 被 使 用 。 这 个 网 
站 的 信任 关系 直接 由 用 户 明确 指定 。 

在 所 有 情况 下 ， 无 论 是 在 信任 关系 是 由 用 户 隐 式 地 推断 或 显 式 指定 的 情况 下 ， 信 任 网 
络 都 可 以 被 创建 。 本 章 的 目的 是 ,我 们 让 信任 度 被 指定 为 一 个 mXm WEET et] H 
Pia 0, 1). 三 越 大 ， 表 明 用 户 i HAP j 信任 度 越 高 。 其 中 二 Eco, DER TIE 
任 度 的 概率 模型 。 这 个 方法 提供 了 一 个 对 信任 度 建 模 的 方法 ,但 并 没有 对 不 信任 度 建 模 。 


tis (11-2) 
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一 般 来 说 ， 刁 的 值 与 tj;; 并 不 相同 ,但 是 也 有 一 些 隐 式 模型 会 使 用 这 个 假设 。 

在 某 些 情况 下 ， 使 用 不 信任 的 关系 也 是 可 行 的 。 例 如 ，Epinions 为 用 户 提 供 了 列 出 不 
信任 用 户 的 功能 。 在 理想 的 情况 下 ， 不 信任 关系 应 该 是 负 值 ， 由 此 我 们 可 以 把 模型 的 取 值 
范围 扩展 到 [一 1， 十 1]。 然 而 ， 将 信任 网 络 中 的 推理 算法 泛 化 成 支持 信任 和 不 信任 关系 
的 推理 算法 是 极 具 挑战 性 的 ， 因 此 大 多 数 文献 仅仅 关注 于 对 信任 关系 的 使 用 而 忽略 了 不 信 
任 关 系 。 因 此 ， 这 个 章节 的 大 多 数 讨 论 也 都 基于 结 点 间 的 正面 的 信任 关系 。 在 11.6 WM 
包含 了 更 多 使 用 不 信任 关系 的 方法 的 信息 。 

信任 感知 推荐 系统 能 运用 网 络 中 的 信任 知识 来 提出 个 性 化 和 准确 的 推荐 。 这 样 的 推荐 
系统 也 被 称 为 信任 增强 推荐 系统 。 许 多 这 些 方法 使 用 专门 的 操作 符 ， 被 称 为 信任 聚集 和 信 
任 传播 。 有 一 些 机 制 利 用 信任 网 络 中 的 传递 性 来 估计 用 户 之 间 未 知 的 信任 级 别 。 换 句 话 
说 , 一旦 知道 A 多 信任 B 和 B 多 信任 C， 就 可 以 估计 A 多 信任 C。 对 网 络 中 已 有 的 信任 
关系 ， 信 任 测度 被 用 于 评估 一 个 用 户 对 另 一 个 用 户 的 信任 程度 [5682]。 

信任 网 络 一 般 是 有 向 的 ， 特 别 是 当 其 被 指定 为 针对 用 户 之 间 时 。 这 是 因为 信任 关系 是 
非 对 称 的 ， 也 就 是 说 A 和 B 之 间 的 信任 等 级 可 能 与 BB 和 A 之 间 的 信任 等 级 完全 不 同 。 大 
多 数 的 基于 信任 度 的 算法 会 在 计算 中 考虑 到 边 的 方向 。 然而， 在 一 些 情况 下 ， 我 们 会 使 用 
无 向 图 的 简化 假设 ,特别 是 在 信任 关系 在 基于 Web 的 社交 网 络 中 被 隐 式 指定 的 时 候 。 例 
如 ， 公 式 11-2) 的 信任 关系 就 是 对 称 的 。 


11.3.2 信任 的 传播 和 聚合 


信任 的 传播 和 聚集 在 社交 推荐 系统 中 发 挥 着 重要 的 作用 。 这 些 方法 是 受到 了 信任 网 络 
是 稀 玖 的 这 一 事实 的 启发 ， 因 为 所 有 的 用 户 之 间 可 能 都 没有 信任 关系 。 因 此 ， 信 任 关系 的 
传递 性 需要 通过 传播 和 聚集 这 样 的 算 子 来 推断 缺失 的 信任 关系 。 

那么 什么 是 传递 性 呢 ? 例如 ， 如 果 Alice 信任 John, 而且 John 信任 Bob, MARTA 
以 推断 出 Alice 可 能 信任 Bob。 事 实 上 ， 反 过 来 ， 我 们 可 以 利用 已 知 的 Bob 喜欢 的 东西 来 
给 Alice 做 建议 。 换 名 话说， 我 们 需要 通过 信任 网 络 中 的 路 径 来 做 出 这 样 的 推断 。 确 定 一 
条 路 径 上 两 个 端点 之 间 的 未 知 信任 值 被 称 为 信任 传播 。 然 而 ， 在 信任 网 络 中 ， 一 对 用 户 间 
通常 有 很 多 路 径 。 例 如 ， 在 图 11-2 的 简单 信任 网 络 中 ， 假 设 边 上 的 信任 度 属 于 (0，1)。 
从 任意 用 户 A 到 任意 其 他 用 户 B 的 有 向 边 的 值 就 代表 了 A 对 B 的 信任 度 。 图 上 Alice 和 
Bob 间 有 两 条 路 径 ， 所 以 Alice 和 Bob 之 间 的 《传播 ) 信任 度 需 要 对 这 两 条 路 径 的 信任 度 
做 聚集 。 如 果 要 定量 计算 Alice 对 Bob 的 信任 度 ， 则 把 Alice 当 作 源 结 点 (source) 而 Bob 
当 作 汇 结 点 (sink)。 信 任 的 传播 操作 和 聚集 操作 的 计算 过 程 如 下 : 

1) 在 单个 路 径 上 的 信任 传播 : 在 信任 传播 中 一 般 会 用 乘法 原则 [4509] 。 在 这 个 情况 下 ， 
两 个 点 之 间 的 信任 度 是 由 边 上 的 信任 度 相 乘 得 到 的 。 例 如 ， 考 虑 图 11- 2 中 的 Alice>John> 
Bob 的 路 径 。 在 这 种 情况 下 ， 我 们 把 边 上 的 信任 度 相 乘 ， 得 到 最 终 的 信任 度 : 0.7X0.6= 
0. 42。 同 样 XF Alice>Mary>Tim—>Bob 这 条 路 径 ， 结 果 是 0.3X0.4X1=0.12。 在 很 
多 方法 中 ， 我 们 也 使 用 信任 衰减 来 淡化 长 路 径 ， 或 者 干脆 直接 使 用 最 短 的 路 径 。 例 如 ， 使 
用 用 户 定义 的 衰减 因子 8 二 1 ， 通 过 将 传播 结果 乘 以 B 来 计算 信任 度 ， 其 中 g 是 路 径 的 传 
播 长 度 。 例 如 在 图 11- 2 中 ， 第 一 条 路 径 的 信任 传播 结果 会 乘 以 8: ， 第 二 条 路 径 的 信任 传 
播 结果 会 乘 以 83 。 由 此 产生 的 计算 值 分 别 为 0.42XB82 和 0.12XB3。 还 有 一 种 更 复杂 的 考 
虑 到 衰减 的 算法 被 称 为 苹果 闻 (Appleseed) 算法 [682] ， 它 使 用 了 扩散 激活 模型 。 

这 些 乘法 传播 算法 仅仅 适用 在 范围 为 (0，1) 的 非 负 信任 度 下 。 而 不 信任 关系 的 引入 
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会 带 来 巨大 的 挑战 ， 这 是 因为 两 个 不 信任 的 关系 并 不 能 推导 出 一 种 信任 关系 [341,590,591] 。 
因此 ， 乘 法 原则 不 能 直接 用 于 负 的 信任 值 。 更 多 细节 请 
参阅 11. 6 节 中 对 不 信任 关系 的 传播 方式 的 介绍 。 
2) 多 条 路 径 的 信任 聚集 : 在 信任 聚集 中 ， 多 条 路 径 ssa id 
的 信任 值 都 会 被 聚集 为 一 个 值 。 常 见 的 聚集 方法 包括 使 


John 


用 最 大 值 、 最 小 值 、 平 均值 、 加 权 平 均 或 加 权 和 等 。 de Alice) Bob 
加 权 平 均 的 方法 中 ， 一 些 传播 路 径 被 认为 比 别 的 路 径 更 À fi 
加 重要 。 例 如 ， 短 路 径 或 者 亲密 朋友 的 推荐 就 可 以 被 认 

为 更 加 重要 。 这 些 权重 也 可 以 使 用 信任 传播 方法 中 的 训 Oar oy 

减 函数 进行 处 理 。 Mary Tim 


考虑 图 11-2 中 的 例子 ， 使 用 平均 算 子 估计 出 的 Alice EI 一 个 简单 的 信任 网 络 
和 Bob 之 间 的 信任 值 为 (0. 42 十 0. 12)/2=0. 27， 而 使 用 加 和 因子 的 估计 值 为 (0.42 十 0. 12) = 
0. 54。 在 11.6 节 中 提 到 了 更 多 的 信任 聚集 的 方法 。 

信任 传播 和 聚集 是 以 信任 为 中 心 的 推荐 系统 中 的 非 监 督 方 法 ， 因 为 它们 使 用 无 关 数 据 
的 固定 的 启发 式 方法 。 而 监督 的 方法 往往 使 用 低级 别 的 表示 ， 如 矩阵 分 解 ， 来 学 习 这 些 依 
赖 性 。 在 稍 后 的 部 分 中 ， 我 们 也 将 讨论 监督 方法 ， 它 们 会 学 习 不 同 路 径 的 重要 性 。 值 得 注 
意 的 是 ， 一 些 基于 训 减 的 传播 算法 和 基于 求 和 的 聚集 与 链 路 预测 中 的 无 监督 Katz 度量 非 
常 相 似 。 我 们 在 第 10 章 中 讨论 了 在 链 路 预测 中 对 Katz 度量 的 使 用 。 我 们 将 在 11. 3.7 节 
看 到 ， 信任 感知 建议 的 问题 可 以 直接 转化 为 链接 预测 问题 的 一 个 实例 。 


11. 3.3 没有 信任 传播 的 简单 推荐 


考虑 这 样 一 种 情形 ， 有 一 个 信任 网 络 是 可 用 的 , 但 只 能 直接 观察 到 信任 值 (例如 
Epinions 的 用 户 反馈 ) 被 使 用 。 此 外 ， 传 播 和 聚合 并 不 被 用 于 推断 不 直接 相连 的 用 户 之 间 
的 信任 值 。 换 名 话说 ， 如 果 用 户 i 没有 直接 提供 对 用 户 j 的 反馈 ， 则 i 与 i 之 间 就 没有 可 
用 的 信任 值 。 我 们 有 一 个 m Xn 的 评分 矩阵 R= 二 [ri ] 来 表示 m 个 用 户 和 nn 个 物品 ， 还 有 一 
个 mxm FEM T= (ty ] 代 表 信 任 关 系 。 换 句 话说 ,ts 表示 用 户 i 信任 用 户 ; 的 程度 。 

一 个 预测 用 户 i 对 物品 7 的 评分 的 简单 方法 是 ， 定 义 用 户 i 的 对 等 组 ， 其 中 所 有 的 成 
ANG, ORRI H m j 做 过 评分 ， 而 且 在 一 个 给 定 的 阔 值 6 下 是 被 用 户 ; 所 信任 的 。 然 后 ， 
我 们 可 以 使 用 一 个 在 基于 近邻 的 方法 中 经 常用 到 的 公式 : 

TOF Bu teh arz 
kE NG, o) R 
这 种 方法 可 以 被 看 作 是 邻近 法 中 基于 用 户 的 推荐 方法 ， 其 中 的 Pearson 相关 系数 被 信任 值 
蔡 换 掉 了 。 这 个 公式 也 被 称 为 信任 加 权 平 均值 。 另 一 种 方案 是 用 每 个 用 户 天 的 平均 评分 避 
作为 评分 中 心 ， 正 如 在 传统 协同 过 滤 中 做 的 那样 : 
fi = pat Direnc.nta ry Ty) (11-4) 
kE NCi,0) Pit 
这 种 做 法 可 能 会 导致 预测 评分 不 位 于 指定 范围 中 。 在 这 种 情况 下 ， 我 们 可 以 把 评分 调整 为 
在 阔 值 范围 内 的 与 初始 值 最 接近 的 评分 。 





11.3.4 TidalTrust 算法 
带 达 尔 信任 算法 (TidalTrust algorithm) 是 基于 越 短 的 路 径 在 信任 传播 中 越 可 靠 这 样 
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一 个 事实 。 因 此 ， 我 们 应 该 使 用 从 源 结 点 到 汇 结 点 的 最 短路 径 来 计算 信任 度 。 为 了 进一步 
讨论 ， 我 们 假设 我 们 要 计算 源 结 点 i 到 汇 结 点 7 的 信任 度 。 这 个 算法 的 基本 思想 如 下 : 在 
第 一 个 阶段 ， 即 前 向 阶段 ， 用 广度 优先 搜索 遍历 图 中 的 结 点 ， 找 到 从 源 结 点 i 到 汇 结 点 7 
ARR. FRB MAE AA 8(i，j)。 接 着 算法 在 第 二 阶段 ， 即 后 向 阶段 ， 
按 结 点 在 第 一 阶段 被 遍历 的 逆序 来 递归 计算 信任 度 。 只 有 在 最 短路 径 上 且 信 任 度 大 于 BG, 
力 的 边 〈 在 前 向 阶段 来 确定 ) 才 会 进行 第 二 阶段 的 计算 。 因 此 ， 该 算法 可 以 被 概括 如 下 : 

1) 前 向 阶段 : 前 向 阶段 的 目标 是 基于 信任 度 确 定 信 任 度 最 小 阅 值 8(i，;)， 这 和 计算 
源 结 点 i 到 汇 结 点 7 的 信任 度 相 关 。 用 于 计算 8(i，j) 的 办 法 将 在 稍 后 讨论 。 此 外 ， 从 源 结 
点 到 汇 结 点 的 所 有 最 短路 径 都 在 此 阶段 用 广度 优先 搜索 来 确定 。 注 意 ， 从 源 结 点 i 到 汇 结 
点 j 的 所 有 最 短路 径 的 生成 子 图 9(i,， 站 是 一 个 有 向 无 环 图 。 每 个 结 点 g 的 孩子 C(q) 被 定 
义 为 在 图 9(i, PPMKi Fl] 的 最 短路 径 上 的 所 有 结 点 。 只 有 在 子 图 上 的 边 才 是 后 向 阶段 中 
相关 的 边 。 前 向 阶段 将 在 后 面 更 详细 地 描述 。 

2) 后 向 阶段 : 在 后 向 阶段 里 ,算法 从 汇 结 点 7 开始， 结 点 将 按照 距离 源 结 点 s 的 距离 
的 逆序 被 依次 处 理 。 换 名 话说 ， 离 汇 结 点 最 近 的 点 将 最 先 被 处 理 。 令 当下 被 处 理 的 结 点 为 
qs MRENA PREE a j) 那么 我 们 就 可 以 把 预测 的 信任 值 iy 设 为 观察 到 的 信 
任 值 tw。 反之 ， 如 果 信 任 网 络 中 不 存在 边 “q，j)， 那 么 用 户 结 点 9 和 汇 结 点 7 的 预测 信 
任 值 iij 会 使 用 图 9(i，j7) 中 的 信任 值 大 于 等 于 BC(i，j7) 的 边 来 递归 地 计算 ， 
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值得 注意 的 是 ， 根 据 公式 11-5) 计算 出 的 信任 值 好 总 是 需要 对 所 有 孩子 结 点 有 EC(C9) 
计算 值 和;。 在 计算 信任 度 fo 的 时 候 ， ty 的 值 总 是 可 用 的 ， 这 是 因为 是 g 的 一 个 孩子 ， 
而 对 结 点 信任 值 的 计算 都 是 按照 逆序 来 进行 的 。 虽然 该 方法 计算 了 很 多 中 间 值 fj， 但 是 
对 于 给 定 的 源 结 点 - 汇 结 点 对 G, j), RA bj 是 唯一 相关 的 ， 其 他 的 所 有 计算 结果 都 会 
被 丢弃 。 因 此 这 种 方法 需要 对 不 同 的 源 结 点 一 汇 结 点 对 不 断 地 重复 上 述 计 算 。 

现在 让 我 们 解决 遗留 下 来 的 前 向 阶段 的 问题 。 在 前 向 阶段 中 ， 对 广度 优先 搜索 方法 进 
行 修改 使 其 用 从 结 点 i 开始 计算 从 i 到 7 的 所 有 最 短路 径 对 应 的 生成 图 9(i，j)。 标 准 的 广 
度 优先 搜索 只 能 发 现 i 和 j 之 间 的 第 一 条 最 短路 径 〈( 取 决 于 结 点 搜索 顺序 )， 但 是 我 们 要 找 
到 所 有 的 最 短路 径 。 这 个 方法 和 标准 广度 优先 搜索 的 主要 区 别 在 于 ， 一 个 结 点 的 先前 访问 
的 邻居 也 要 被 检查 ， 以 便于 知道 它 是 否 是 给 定 结 点 的 孩子 。 源 i 的 距离 值 4 (i 让) 被 标记 为 0。 
所 有 其 他 的 距离 值 被 标记 为 2。 所 有 结 点 i 的 传 出 邻居 的 距离 被 标记 为 1， 并 被 添加 到 列 
表 工 中 。 在 每 次 迭代 中 ， 在 列表 L 中 具有 最 小 距离 标记 d (9q) 的 结 点 ¢ 会 被 选中 。 而 对 ¢ 
的 每 条 出 边 的 邻居 的 距离 标记 做 如 下 修改 : 

d(k) = min{d(k), dla) + 1} (11-6) 

结 点 上 会 被 添加 到 9g 的 孩子 CC(g) 中 ， 当 且 仅 当 更 新 后 dk)=d(qgt+1. ENR L BRT q 
所 有 的 邻居 (包括 先前 被 访问 过 的 ) 的 距离 标记 后 ， 结 点 gq 会 被 删除 。 算 法 会 在 当 结 点 在 
L 中 的 最 小 距离 标签 是 汇 结 点 7 的 时 候 终 止 。 这 时 ， 图 中 所 有 距离 标签 大 于 等 于 汇 结 点 7 
的 结 点 都 会 被 从 网 络 中 删除 。 此 外 ， 任 何不 满足 4(k) 二 4d(g) 十 1 的 边 (g,&) 都 会 被 删除 。 
剩 下 的 子 图 9(i, 7 包含 着 结 点 i 到 结 点 7 中 的 所 有 最 短路 径 。 例 如 ， 图 11- 3a 的 信任 网 络 
的 最 短路 径 子 图 9(i，j) 就 是 图 11- 3b 所 示 。 注 意 ， 图 11- 3b 中 6 号 结 点 丢失 了 ， 因 为 它 
与 任何 源 结 点 1 和 汇 结 点 8 之 间 的 路 径 都 不 相关 。 原 图 中 的 一 些 边 被 丢弃 了 ， 因 为 它们 不 
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在 任何 最 短路 径 上 。9(Gi， 力 中 的 每 条 从 源 结 点 到 汇 结 点 的 路 径 的 最 小 权重 都 被 确定 了 。 
B(i，j7) 的 值 被 设置 为 这 些 极 小 值 中 的 最 大 值 。 同 时 ， 在 前 向 过 程 中 可 以 用 动态 规划 方法 ， 
通过 保存 中 间 结 果 B(i, 上 &) 的 值 来 更 加 有 效 地 计算 8(i，j)。 我 们 做 如 下 初始 化 : BU, d= 
co 且 pG, 有 ) 二 0， 当 关 i 时 。 无 论 何 时 ， 结 点 的 距离 标记 都 会 因为 人 边 a, k) 的 原因 
严格 递减 (根据 公式 (11- 6))， 以 下 的 更 新 也 会 被 执行 : 

BG, k) = max{BG, k), minta» BCs q)}} (11-7) 


i ee 





i 
i 

1 

ESA ee 

距离 =1 距离 =2 原 离 =3 
a) 一 个 信任 网 络 b) 最 短路 径 的 子 图 


图 11-3 对 于 一 个 信任 网 络 ， 由 TidalTrust 算法 发 现 的 最 短路 径 生 成 子 图 


其 结果 是 ， 前 向 阶段 结束 时 也 会 生成 eG, DRE. 

到 目前 为 止 ， 我 们 只 讨论 了 TidalTrust 算法 中 用 户 对 用 户 的 信任 度 的 计算 。 怎 么 能 从 
这 个 计算 中 得 到 推荐 物品 的 帮助 呢 ? 类 似 于 公式 11-3), 一 个 物品 的 最 终 评分 是 通过 信 
任 度 加 权 平 均 得 到 的 。 主 要 的 区 别 在 于 ， 除 了 结 点 i 的 邻居 们 的 已 观测 的 信任 值 ， 预 测 的 
信任 值 i 也 可 以 被 用 于 公式 (11- 3) 的 右手 边 。 我 们 让 I; 作为 用 户 i 已 评价 物品 的 索引 。 
因此 ， 公 式 (11- 3) 被 修改 为 如 下 : 


A 
si Lh, 0 


和 之 前 一 样 ，9 是 一 个 由 用 户 定义 的 预测 信任 值 的 贱 值 。 这 些 方 法 会 对 那些 物品 评分 与 其 
他 用 户 有 显著 差异 的 争议 用 户 有 特别 有 益 的 影响 [223] 。 


(11-8) 
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11.3.5 MoleTrust 算法 


莫 尔 信任 算法 (MoleTrust algorithm) 和 蒂 达 尔 信 任 算 法 (TidalTrust algorithm) 有 
很 多 概念 上 的 相似 之 处 ， 但 在 实现 上 大 相 径 庭 。TidalTrust 算法 对 前 向 阶段 和 后 向 阶段 的 
一 个 应 用 是 能 够 计算 从 一 个 特定 源 结 点 到 一 个 特定 汇 结 点 的 信任 度 。 而 MoleTrust 算法 则 
可 以 使 用 两 个 前 向 阶段 计算 一 个 最 大 距离 阔 值 内 ， 结 点 i 到 所 有 结 点 的 信任 度 。 由 于 在 
MoleTrust 算法 中 并 未 指定 汇 结 点 ， 故 其 采用 了 一 种 不 同 的 标准 (根据 最 大 路 径 长 度 6) 
来 终止 最 短路 径 的 计算 。 此 外 ， 一 个 由 用 户 指定 的 信任 阔 值 w 会 被 用 于 所 有 的 源 结 点 一 汇 
结 点 对 ， 而 不 是 为 每 一 个 源 结 点 一 汇 结 点 对 重新 计算 。 因 此 ， 这 两 个 阶段 的 描述 如 下 : 

1) 前 向 阶段 1; 确定 所 有 的 从 源 结 点 i 开始 的 长 度 至 多 为 6 的 最 短路 径 。 在 Tidal- 
Trust 算法 中 ， 我 们 用 到 了 改进 的 广度 优先 搜索 ， 而 这 里 的 不 同 之 处 在 于 终止 的 条 件 是 基 
于 最 大 路 径 长 度 ， 而 不 是 到 达 的 汇 结 点 。 我 们 需要 确定 有 向 无 环 图 9(i，6) ， 该 图 中 的 每 个 


社交 和 以 个 任 为 中 心 的 推荐 系统 265 





边 都 在 这 些 最 短路 径 的 其 中 之 一 上 。 我 们 把 96(i， 65) 中 指向 结 点 q 的 所 有 结 点 称 为 祖先 P(g)。 
需要 注意 的 是 ， 在 MoleTrust 算法 中 祖先 的 概念 对 应 于 TidalTrust 算法 的 孩子 的 概念 。 

2) 前 向 阶段 2: 算法 开始 时 ， 对 所 有 结 点 &， 如 果 边 G, kh 在 图 9(i，6) 中 ， 我 们 会 设 
置 : 所 三 成 。 这 些 结 点 和 源 结 点 的 距离 为 1。 接 着 ， 源 和 相距 更 远 的 各 个 结 点 之 间 的 距离 会 
被 计算 出 来 。 任 何 图 9(i，5) 中 与 源 结 点 距离 为 2 或 者 更 远 的 结 点 的 信任 度 to 计算 如 下 : 


al Ž Ke PCa: ty ett * Leg enpe 


big 
Dero, tatka 
注意 该 方法 与 TidalTrust 算法 的 相似 性 。 它 们 的 主要 区 别 在 于 ， 这 次 计算 是 前 向 的 ， 而 且 
BI a EHAPEL., MAMKANRAA ILA AM, ABA BH. i Tidal- 
Trust REP, HPRAA-LA AMHR LAR. ) 是 在 前 向 阶段 中 计算 出 来 的 。 
而 物品 推荐 的 最 终 方法 是 和 TidalTrust 算法 非常 相似 的 。 在 所 有 的 信任 值 都 被 计算 
后 ， 我 们 就 可 以 使 用 公式 〈11-8) 做 评分 预测 。 
我 们 看 到 图 11-3a 的 有 向 无 环 子 图 (图 11-4) 的 最 
大 距离 阀 值 为 2。 在 图 11-3 的 例子 中 ， 结 点 1 被 视 作 源 
结 点 。 注 意 和 图 11-3b 不 同 ， 结 点 6 存在 于 图 11-4 中 ， 
但 结 点 8 不 在 。 在 TidalTrust 算法 中 ， 与 源 结 点 之 间 pak 
的 距离 超过 阅 值 的 结 点 的 信任 值 是 不 能 计算 的 。 因 此 ， 
fis PREH MoleTrust 算法 计算 。 算 法 假定 对 信任 值 fag 
的 计算 很 不 可 信 ， 因 此 不 能 被 用 于 推荐 过 程 。 因 此 ， 这 


些 信任 值 被 隐 式 地 设置 为 0。MoleTrust 算法 的 效率 比 距离 =1 

TidalTrust 算法 要 高 ， 因 为 不 用 在 每 个 源 结 点 一 汇 结 点 图 11-4 对 于 图 11-3a 中 的 信任 网 络 ， 

对 中 都 使 用 该 算法 ， 而 是 仅仅 在 每 个 源 结 点 中 使 用 一 次 给 定 最 大 距离 冰 值 2， 用 

该 算法 即 可 。 MoleTrust 发 现 的 最 短路 径 
的 生成 子 图 

11.3.6 信任 游 走 算法 


信任 游 走 ‘TrustWalker) 算法 [89 是 基于 如 下 的 观察 : 社交 网 络 链接 能 提供 一 个 与 
评分 独立 的 信息 源 中 7 。 因 此 ， 随 机 游 走 算法 被 用 于 发 现 相 似 的 用 户 。 然 而 ,一 个 主要 的 
难题 是 ， 如 果 一 个 人 在 随机 游 走 里 走 得 太 远 ， 那 么 会 发 现 一 些 无 关 的 用 户 。 一 个 重要 的 观 
察 是 ， 非 常 信任 的 朋友 对 相似 物品 的 预测 是 比 不 太 信 任 的 用 户 对 相同 物品 的 评分 更 好 的 预 
测 。 因 此 ， 信 任 游 走 算法 将 基于 信任 的 用 户 相 似 度 和 基于 物品 的 协同 过 滤 模 型 整合 在 一 个 
统一 的 随机 游 走 框架 下 。 

信任 游 走 算法 对 社交 网 络 中 的 用 户 使 用 随机 游 走 。 该 算法 从 源 用 户 i 开始， 确定 每 个 
物品 j 的 评分 +i 。 在 随机 游 走 的 每 一 步 中 ， 都 会 检查 所 访问 的 用 户 & 是 否 评价 了 物品 7 。 
如 果 确 实 如 此 ， 那 么 观测 到 的 评分 rw 就 会 被 返回 。 否则 ,算法 会 有 两 种 选择 ， 都 可 以 被 
看 作 是 随机 游 走 中 重启 方法 的 改进 版 本 : 

D 在 随机 游 走 的 第 ! 步 ， 算 法 以 概率 pi 在 结 点 & 处 终止 。 在 这 种 情况 下 ， 算 法 返回 
用 户 上 在 一 个 与 近似 的 随机 物品 上 的 评分 。 在 所 有 被 用 户 & 评 分 过 的 物品 中 ， 物 品 被 选 
中 的 概率 与 它 和 目标 物品 7 的 相似 度 成 正比 。 这 里 的 评分 预测 可 以 被 看 作 是 一 个 随机 化 和 
基于 用 户 信任 的 基于 物品 的 协同 过 滤 算 法 。 

2) 算法 以 概率 (1 一 ww) 随机 游 走 到 的 邻居 。 
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随机 游 走 会 重复 多 次 ， 评 分 会 在 每 次 游 走 中 以 概率 的 方式 平均 。 这 个 加 权 方 法 是 基于 每 
次 随机 游 走 停止 的 概率 和 选择 特定 的 物品 去 做 预测 的 概率 。 请 参阅 [269] 获取 详细 信息 。 

值得 注意 的 是 ， 重启 概 率 gw 取决 于 当前 被 访问 的 用 户 k、 物 品 j 和 运行 步 数 1。 确 定 
这 个 概率 值 的 方法 如 下 。 终 止 概 率 gj, 会 随 着 步 数 1 的 增加 而 增加 ， 这 是 为 了 避免 距离 源 
用 户 过 远 的 非 信任 用 户 所 造成 的 影响 。 这 与 所 有 基于 信任 的 算法 在 信任 传播 时 需要 避免 使 
用 长 路 径 是 一 致 的 。 此 外 ， 如 果 我 们 确信 被 用 户 & 评 分 的 相似 物品 能 提供 可 靠 的 预测 时 ， 
终止 概率 的 值 也 应 该 很 高 。 例 如 ， 当 目标 物品 7 和 被 用 户 & 评价 过 的 最 相似 的 物品 之 间 的 
相似 度 很 高 时 ， 我 们 可 以 增加 终止 概率 的 值 。 令 这 个 最 高 相似 度 值 为 Ay E (0，1)。 那 么 
终止 概率 的 设 定 如 下 : 


A eS a h 
Pt = apa) peti 


上 述 计算 需要 已 知 物品 -物品 的 相似 性 。 为 了 计算 两 个 物品 的 相似 性 ， 我 们 会 使 用 Pear- 
son 相关 系数 的 折扣 版 本 。 第 一 ， 只 有 具有 正 相 关系 数 的 物品 会 被 考虑 。 第 二 ， 当 评价 该 
物品 的 公共 用 户 数量 较 少时 ， 只 有 具有 正 相关 的 物品 会 被 考虑 。 因 此 ， 对 于 两 个 物品 /和 
s 的 共同 评价 者 Nj; ， 我 们 有 : 


Sim(j, s) = Pearson(j, s) 


1+ exp(— Nj-/2) 
因此 ， 信 任 游 走 算法 能 把 用 户 信任 度 和 物品 -物品 相似 度 在 单一 的 随机 游 走 框架 下 以 一 个 
无 颖 的 方法 相 结合 。 
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11.3.7 链接 预测 法 


上 述 大 多 数 方法 都 被 设计 成 基于 信任 传播 和 聚集 的 启发 式 方法 。 而 对 于 特定 的 启发 式 
方法 的 有 效 性 也 许 取 决 于 手中 的 数据 。 这 是 因为 这 些 方法 是 无 监督 的 ， 所 以 它们 并 不 总 能 
很 好 地 适应 网 络 的 特定 结构 。 一 个 自然 的 问题 是 ， 在 进行 传播 和 聚集 时 ， 能 否 以 数据 驱动 
的 方式 直接 学 习 信 任 网 络 中 不 同 部 分 的 相关 性 。 如 果 只 需要 推荐 的 物品 的 分 级 列表 ， 而 不 
是 精确 的 评分 值 的 预测 ， 链 接 预 测 法 会 起 到 作用 。 这 个 警告 主要 是 因为 大 多 数 链接 的 预测 
方法 擅长 于 推荐 边 上 的 排名 名 单 ， 但 在 具体 边 的 预测 上 做 得 不 是 很 好 。 

正如 在 第 10 Æ 10.4.6 节 讨 论 的 那样 ,传统 的 协同 过 滤 问 题 可 以 被 看 作用 户 一 物品 图 
上 的 链接 预测 问题 。10. 2. 3. 3 节 和 10. 4. 6 节 详 细 讨 论 了 将 用 户 - 物 品 的 图 用 于 传统 协同 
过 滤 。 关 于 用 户 -物品 的 图 的 构建 过 程 的 详细 讨论 在 第 2 章 的 2.7 节 中 。 在 这 种 情况 下 ， 
用 户 一 物品 图 需要 用 不 同 用 户 之 间 的 社交 链接 来 增强 。 对 用 户 一 物品 图 的 社交 链接 增强 允 
许 在 协同 过 滤 的 过 程 中 使 用 社交 信息 。 

考虑 一 个 mXn 的 评分 矩阵 ， 其 中 有 m 个 用 户 ，n 个 物品 。 假 定 用 户 被 安排 在 社交 网 络 
G;=(Nu, ADP. HP, N 表示 用 户 结 点 集合 ，A, 表示 用 户 间 的 社交 链接 集合 。 用 户 集 合 
AlN, 中 的 结 点 存在 一 一 对 应 的 关系 。 由 于 用 户 的 数量 为 m, 我 们 有 |N|==m。 图 11- 5a 
给 出 了 一 个 小 社交 网 络 的 例子 。 

用 户 一 物品 图 可 以 被 看 作 是 一 个 含有 物品 的 社交 网 络 图 的 增强 。 令 Ni 表示 物品 对 应 
的 结 点 集合 。 物 品 集合 和 Ni 中 的 结 点 也 存在 一 一 对 应 的 关系 。 因 为 物品 个 数 为 n， 故 
|Ni|=n. 我们 构建 图 G= (NUN;, AsUA)。 其 中 ，A 是 一 个 用 户 结 点 N。 和 物品 结 点 
Ni 之 间 的 边 的 集合 。 注 意 ， 此 图 的 结 点 和 边 是 原 社交 网 络 G 的 超 集 。A 中 的 边 对 应 于 用 
户 一 物品 图 的 关系 。( 参 见 第 2 章 2.7 节 的 部 分 )。 具 体 地 说 ， 如 果 某 用 户 评价 了 一 个 物品 ， 
那么 在 图 G 中 对 应 用 户 结 点 和 对 应 物品 结 点 之 间 就 存在 一 条 边 。 该 边 的 权重 等 于 用 户 对 该 
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6) 二 元 评分 矩阵 人 有 符号 的 用 户 -物品 图 ( 有 社交 链接 ) 
11-5 融合 社交 链接 和 用 户 一 物品 图 的 小 例子 


物品 的 均值 中 心 化 后 的 评分 。 这 往往 会 导致 负 权 重 的 出 现 。 在 隐 式 反馈 的 数据 集中 ， 反 馈 
并 不 是 均值 中 心 化 的 但 仍然 可 以 使 用 权重 〈 例 如 一 个 0- 1 的 值 或 者 购买 的 物品 数量 ) 。 之 
前 的 例子 中 使 用 均值 中 心 化 的 原因 是 ， 评 分 可 以 表明 喜爱 或 者 讨厌 这 两 种 情况 ， 而 隐 式 反 
馈 采 用 了 一 元 评分 的 一 种 形式 ， 该 形式 并 没有 明确 地 指定 用 户 对 物品 的 厌恶 。 在 隐 式 反馈 
情况 中 ， 最 后 得 到 的 网 络 是 一 个 链 路 上 没有 负 权 重 的 常规 网 络 。 在 显 式 反馈 情况 下 ， 所 得 
到 的 网 络 是 一 个 有 符号 的 网 络 ， 即 同时 有 正 权 重 的 边 和 负 权 重 的 边 。 值 得 注意 的 是 ， 所 得 
到 的 网 络 可 以 被 看 作 是 原始 社交 网 络 与 第 2 章 2.7 节 中 讨论 的 用 户 一 物品 图 的 一 个 合并 。 
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为 了 说 明 这 一 点 ， 我 们 举 一 个 一 元 评分 矩阵 〈 见 图 11- 5b〉 的 一 个 例子 〈 这 个 矩阵 和 
第 10 章 的 图 10-11a 完全 相同 )。 与 之 关联 的 没有 社交 链接 的 用 户 一 物品 图 如 图 11-5c 所 示 
(这 个 图 和 第 10 章 的 图 10-11b 完全 一 致 )。 而 与 之 相关 的 有 社交 链接 的 用 户 一 物品 图 (有 
社交 链接 ) 如 图 11-5d Bras. YER. 图 11-5d 是 图 11- 5a 和 图 11- 5c 的 人 合并。 此外， 社交 
链接 也 可 以 根据 社会 关系 的 强度 或 者 社会 行动 者 之 间 的 信任 度 来 决定 权重 。 正 如 在 10. 4. 6 
节 中 讨论 的 那样 ， 链 接 预 测 法 可 被 用 于 确定 用 户 对 物品 的 喜爱 。 大 多 数 链 接 预 测 法 也 会 给 
出 预测 链接 的 量化 强度 。 可 以 根据 其 强度 向 用 户 给 出 一 个 物品 的 排序 。 链 接 预 测 法 在 第 10 
章 10. 4 节 中 已 经 讨论 过 了 。 在 隐 式 评分 中 ， 因 为 所 有 的 链接 权重 是 非 负 的 ， 所 以 可 以 使 
用 传统 的 链接 预测 法 。 与 10. 4. 6 节 的 方法 唯一 不 同 的 地 方 在 于 ， 用 户 -物品 图 被 社交 链接 
增强 了 。 而 使 用 该 方法 的 一 个 具有 挑战 性 的 问题 是 ， 社 交 链 接 的 重要 性 和 用 户 一 物品 链接 
的 重要 性 可 能 不 等 。 为 了 解决 这 个 问题 ， 我 们 把 所 有 的 社交 联系 的 权重 乘 以 参数 入 。 和 会 
根据 社交 信任 链接 和 用 户 -物品 链接 的 重要 性 来 调节 。 我 们 使 用 交叉 验证 法 来 选择 入 ， 以 
便于 最 大 限度 地 提高 算法 的 预测 精度 。 

对 于 显 式 反馈 来 说 ， 因 为 评分 是 均值 中 心 化 的 ， 所 以 会 出 现 带 符号 的 权重 。 为 了 简 
单 ， 我 们 可 以 在 二 元 评分 中 只 使 用 一 1 和 十 1。 十 1 表示 “喜欢 ”， 而 一 1 表示 “不 喜欢 ”。 
二 元 评分 矩阵 的 一 个 例子 如 图 11-5e 所 示 ， 其 社交 增强 的 用 户 - 物 品 图 如 图 11-5f 所 示 。 在 
这 样 的 问题 中 ， 有 符号 的 链接 预测 方法 [5346,590 可 以 被 用 于 预测 喜欢 或 者 不 喜欢 。 此 外 ， 还 
可 以 利用 负 的 社交 链接 来 表示 用 户 之 间 不 信任 的 关系 。 

链接 预测 法 的 一 个 好 处 是 ， 它 不 需要 明确 的 启发 式 的 信任 传播 和 聚集 ， 这 是 因为 用 户 
信任 的 传递 性 和 其 相应 的 喜好 已 经 以 数据 驱动 的 方式 使 用 机 器 学 习 方 法 学 习 得 到 了 。 事 实 
上 ， 人 们 甚至 可 以 使 用 链接 预测 法 去 推断 社交 网 络 中 用 户 对 之 间 的 信任 度 ， 而 不 是 直接 推 
断 用 户 对 物品 的 喜好 。 换 名 话说， 利用 基于 机 器 学 习 的 链 路 预测 法 ， 可 以 自动 地 以 数据 驱 
动 的 方式 传播 和 聚集 信任 度 。 在 链接 预测 法 中 使 用 监督 方法 (第 10 章 10.4.4 节 ) 是 非常 
有 用 的 ， 因 为 这 些 方法 可 以 以 数据 驱动 的 方式 学 习 信任 网 络 的 重要 性 。 事 实 上 ， 很 多 信任 
传播 算法 都 可 以 看 作 是 非 监 督 的 ， 而 链接 预测 法 提供 了 一 个 有 效 结合 监督 式 计算 的 途径 。 
的 确 ， 链 接 预 测 的 非 监 督学 习 方 法 ， 如 Katz 度量 (参见 第 10 章 10; 4.2 节 )， 都 和 一 些 基 
于 衰变 的 传播 方法 非常 相似 。 众 所 周知 的 一 点 是 [5555] ， 基 于 监督 的 链接 预测 法 通常 会 优 于 
无 监督 的 方法 。 

许多 链接 预测 法 是 为 无 向 网 络 设计 的 。 我 们 为 了 简明 起 见 在 上 述 方法 中 假设 了 一 个 无 向 
的 信任 网 络 , 但 它 也 可 以 轻易 地 被 用 于 有 向 的 情况 中 。 在 上 述 的 用 户 一 物品 图 中 ， 用 户 一 用 
户 链接 可 以 假定 为 不 对 称 的 和 有 向 的 ， 其 方向 取决 于 特定 的 信任 关系 ， 其 中 用 户 一 物品 的 
链接 就 总 是 由 用 户 指向 物品 。 因 此 ， 用 户 到 物品 的 有 向 路 径 意 味 着 用 户 对 物品 的 基于 信任 
的 喜好 。 任 何 监督 方法 或 者 矩阵 分 解法 [542 都 可 以 用 于 执行 有 向 链接 预测 。 因 此 ， 链 接 预 
测 法 为 各 种 场景 都 提供 了 一 个 非常 通用 的 架构 。11. 6 节 中 有 一 些 最 新 的 使 用 链接 预测 法 
的 推荐 系统 。 


11.3.8 和 矩阵 分 解法 


矩阵 分 解法 和 链接 预测 法 [下 关 系 紧密 。 虽 然 我 们 可 以 用 上 一 章 中 的 链接 预测 框架 的 
方法 :4 作为 主 算法 做 和 矩阵 分 解 ， 但 是 为 信任 网 络 直接 设计 和 优化 矩阵 分 解法 会 更 为 有 效 。 
令 R 是 一 个 mXn 的 矩阵， 其 中 有 zw 个 用 户 , nn 个 物品 。 让 我 们 假设 给 定 一 个 mXm 
的 社交 信任 矩阵 T= 二 [tis ]。 注 意 R 和 TT 都 是 高 度 稀 玖 的 矩阵 。 令 Sk 和 Sr 是 这 些 和 矩阵 中 已 


观测 值 的 索引 : 

Sr= {(isj):rj 是 已 观测 的 》 

ST 一 {(i 力 ):1p 是 已 观测 的 》 
在 所 有 已 观测 的 tiy 的 值 都 是 严格 正 值 的 情况 下 ， 把 某 些 未知 的 ti EA 0 并 且 将 Sr 中 的 
对 应 索引 包含 在 内 是 有 意义 的 。 这 样 的 方法 可 以 防止 过 拟 合 ， 因 为 它 弥补 了 负 反 馈 的 缺 
陷 。( 参 见 第 3 章 3. 6. 6.2 节 ,) 

我 们 将 从 介绍 SoRec 算法 开始 。SoRec 算法 [38 可 以 被 看 作 是 包含 社交 信息 的 矩阵 分 
解法 的 一 个 扩展 。 我 们 强调 这 里 介绍 的 方法 原本 是 一 个 概率 分 解 算 法 的 社交 推荐 算法 的 简 
易 版 本 。 简 单 的 版 本 有 助 于 我 们 理解 算法 背后 的 主要 思想 。 请 读者 阅读 [381] 了 解 具 体 
的 描述 。 

在 第 3 章 中 ， 我 们 创建 了 k 级 的 一 个 矩阵 分 解 模 型 mx Xk HAP -AFER US [ui J 
和 一 个 nX&k 的 物品 -因子 矩阵 VY=L 由 ]， 所 以 以 下 条 件 会 在 已 观测 的 项 上 被 尽量 满足 : 

R x UVT (11-12) 
为 了 组 合 社交 信息 ， 我 们 介绍 第 二 个 mXk 的 用 户 因子 矩阵 Z==Lzj; ]， 所 以 以 下 条 件 会 在 
观察 到 的 信任 值 上 被 尽量 满足 : 
Tx UZT (11-13) 
两 个 用 户 一 因子 矩阵 会 在 这 里 被 使 用 ， 因 为 矩阵 U 起 着 发 起 者 的 作用 ， 而 和 矩阵 Z 则 是 作为 
接收 者 。 此 外 ,也许 是 不 对 称 的 且 U 和 2Z 不 必 相 同 。 直 观 地 看 ， 发 起 者 是 指 选择 是 否 相 
信 的 参与 者 〈 比 如 源 结 点 ) ， 而 接收 者 是 指 是 否 被 相信 的 参与 者 〈 比 如 汇 结 点 )。 需 要 注意 
的 是 用 户 矩 阵 避 ， 即 发 起 者 ， 在 两 个 因子 分 解 中 共享 。 由 于 发 起 者 是 共享 的 〈 面 不 是 接收 
者 )， 因 为 源 结 点 的 信任 选项 被 用 于 在 类 似 的 系统 中 预测 评分 。 正 是 这 个 共享 的 U 导致 了 
社交 信任 信息 的 分 解 。 因 此 ， 一 个 联合 的 分 解 目标 函数 会 被 建立 ， 并 在 其 中 加 入 丸和 工 的 
分 解 误差 。 那 么 每 个 分 解 中 的 误差 要 占 多 少 权 重 呢 ? 这 里 可 以 通过 一 个 平衡 参数 8 来 实 
现 。 然 后 ， 总 的 目标 函数 可 以 被 表示 为 如 下 : 
Minimize J = | R— UVT |? +8. || T— UZT |? +a U I+IV I+ ILZ Io 
LET OVS NT BS i ,A TE AL 
R 中 的 已 观测 值 T 中 的 已 观测 值 正则 化 


BRA 会 控制 正则 化 水 平 。 注 意 ， 这 个 目标 函数 仅仅 计算 已 观测 的 项 ， 所 有 未 知 的 项 都 会 
在 计算 中 使 用 Frobenius 范式 被 忽略 。 这 个 方法 与 第 3 章 的 方法 是 一 致 的 。 因 此 ， 产生 的 
目标 函数 会 是 一 个 直接 的 结合 社交 信息 的 和 矩阵 分 解 算法 的 扩展 。 我 们 依照 观察 到 的 Se 和 
Sr 重 写 目标 函数 : 


k k 
MinJ= >) (yD mo) +8 D (tie D uzas) +AU PIV e+ |Z?) 
s=1 s=] H 


Gj) ESk Gp) E Sr 正则 化 

RR 中 的 已 观测 值 T 中 的 已 观测 值 
我 们 可 以 用 梯度 下 降 的 方法 来 确定 因子 矩阵 U、VY 和 Z。 对 于 U、V 和 2Z 中 的 所 有 参数 ，J 
的 梯度 向 量 被 用 于 更 新 表示 ULV 和 2 所 有 项 的 参数 向 量 。 梯 度 下 降 的 步骤 取决 于 观测 和 矩 
阵 和 预测 矩阵 之 间 的 错误 率 eP Ae? : 


k 

RID) oats ee = > 

eij — ri Yij =a Tij Uis U js 
s=1 


k 

内 三 

ep T lip — lip = lip 1 Wi 
s=1 


DF St BY a DR BEY UREA E, 二 Ley ”]， 其 中 未 知 的 值 ( 不 在 Sk 中 的 项 ) 全 部 被 设 为 
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0。 信 任 度 的 错误 率 和 矩阵 可 以 被 记 为 E, 二 Les?]， 其 中 未 知 的 值 (不 在 Sr 中 的 项 ) 全 部 被 
设 为 0。 然 后 ， 梯 度 下 降 的 步骤 可 以 被 写成 如 下 和 矩 阵 更 新 的 方式 : 

U<U(l—a*i)+aEV+a®* BEZ 

V=V(1—a-A) +aE U 

Z=Z(1—a+a)+a+BE/U 
ERE, a> 0 表示 步 长 。 梯 度 下 降 法 的 推导 细节 留 给 读者 作为 练习 。 请 注意 ， 只 有 E, 和 
E, 中 已 观测 到 的 项 会 在 每 次 欠 代 中 被 计算 。 因 为 未 知 项 被 设 为 0， 所 以 使 用 一 个 稀 朴 的 数 
据 结 构 来 表示 这 些 矩 阵 是 合理 的 。 对 于 所 有 更 新 ， 我 们 使 用 了 单一 的 正则 化 参数 * 和 步 长 
a, HAAR NEM ULV 和 Z 设置 不 同 的 步 长 和 正则 参数 也 是 有 必要 的 。 

接 下 来 ， 我 们 描述 了 随机 梯度 下 降 法 ， 其 中 的 每 个 项 上 的 误差 是 以 一 个 随机 的 方式 被 
近似 。 该 方法 首先 会 以 一 个 随机 的 顺序 选择 项 ， 其 项 属于 评分 矩阵 或 者 信任 和 矩阵。 接着 ， 
随机 梯度 下 降 算法 会 按照 随机 序 对 每 个 已 观测 到 的 项 (i, j) E SR 进行 如 下 的 迭代 更 新 : 

(r) A 


. u, 
el Es 
Uig Su taleg * Uig 9 。77user 
i 


) Va € (1k) 


Ae 5 
Uj Vg +a(es” ~ Oa 一 一 ) Va EE {lek} 


nvm 
ERE, a> 0 RREK. WH, nA 表示 用 户 i 的 已 评分 数量 ，nj*" 表示 物品 j 的 已 知 的 
评分 数量 。 注 意 ， 这 组 更 新 与 之 前 使 用 过 的 不 带 信任 矩阵 的 协同 过 滤 (参见 第 3 章 的 
3. 6.4.2 节 ) 的 矩阵 分 解 是 相同 的 。 一 个 仅 有 的 区 别 是 ， 我 们 分 别 为 用 户 和 物品 做 了 两 次 
正则 化 和 归 一 化 9 。 
随后 ， 随 机 梯度 下 降 随 机 遍历 每 个 信任 矩阵 中 的 项 (i, p)E Sr， 并 进行 以 下 更 新 : 


At) Vg € (1k) 





(t) gies 
Uig Suy +a(p a alae. Bi Dea 
z 


et) Yq € {ek} 

p 

这 里 n" 表示 Sr 中 i 是 边 的 起 点 的 已 观测 的 项 数 ， 其 中 ，n? 则 表示 Sr 中 p 是 边 的 终点 
的 已 观测 的 项 数 。 我 们 对 评分 矩阵 和 信任 矩阵 中 已 观测 项 交替 地 周期 性 执行 这 些 更 新 直至 
其 收敛 。 在 一 个 特定 的 周期 中 ， 所 有 的 项 会 被 随机 处 理 ， 这 正体 现 了 这 个 梯度 下 降 算法 的 
随机 性 的 本 质 。 参 数 8 和 》 可 以 通过 交叉 验证 来 选择 ， 或 通过 简单 地 尝试 这 些 参数 并 选择 
最 好 的 值 。 不 同 的 正则 化 参数 可 以 用 在 不 同 的 矩阵 上 ， 用 于 获得 更 好 的 结果 ， 尽 管 这 样 做 
会 增加 参数 调整 的 复杂 性 。 

在 所 有 的 和 矩阵 分 解 的 情况 下 ， 评 分 矩阵 可 以 重组 为 及 =UVT。 注 意 ， 人 们 也 可 以 把 信 
任 和 矩阵 工 完全 重建 ， 即 了 =UZT。 事 实 上 ,信任 矩阵 的 重建 可 以 被 看 作 是 一 种 用 于 信任 传 
播 和 聚集 的 数据 驱动 的 方法 ， 除 了 已 有 的 信任 关系 还 会 使 用 用 户 的 评分 信息 。 

11. 3. 8. 1 逻辑 回归 的 改进 

上 述 的 说 明 提供 了 一 个 SoRec 算法 的 简易 版 本 ， 使 得 它 和 第 3 章 结合 更 加 紧密 。 真 正 
的 SoRec 算法 有 一 个 较为 复杂 的 目标 函数 。 矩 阵 分 解法 的 不 足 是 它 所 预测 的 值 可 能 会 超出 
R 中 的 物品 评分 或 T 中 的 信任 度 ) 闪 值 范围 。 一 种 解决 办 法 是 在 分 解 中 使 用 逻辑 回归 函 





A 
w) 
zzy tale Cin * Ug 


O 严格 地 说 ， 该 正则 化 也 应 该 在 传统 的 矩阵 分 解 中 被 使 用 ， 但 它 经 常 作 为 一 个 启发 式 的 基础 被 忽略 了 。 在 信任 
为 中 心 的 系统 的 特定 例子 中 ， 归 一 化 变 得 更 加 重要 ， 因 为 评分 矩阵 和 信任 矩阵 的 大 小 并 不 相同 。 
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BR g(z)=1/(1 十 exp( 一 z))。 逻 辑 回归 函数 的 值 总 是 在 0, D 内 。 不 失 一 般 性 ， 我 们 可 
以 假设 SR 中 的 评分 和 T 中 的 信任 度 的 阔 值 范围 是 0，1)。 换 句 话 说， 评分 矩阵 R 和 信 
任 矩 阵 T 可 以 被 重建 为 Rsg(UYT) 和 Ts:g(0ZIT)。 表 达 式 g(UYT) 的 意思 是 对 矩阵 UVT 
的 每 个 元 素 进行 5(，) 运 算 。 然 后 ， 上 述 目标 函数 被 修改 如 下 : 
Minimize J = || R= g@V") |? +B+ || T~g@Z") |? +aCiu P+ v Ê+ ZIP) 
Was TT BN rasan! rape 
及 中 的 已 观测 值 T 中 的 已 观测 值 
注意 目标 函数 中 使 用 的 逻辑 回归 函数 。 相 应 地 ， 梯度 下 降 算法 中 也 会 以 乘法 的 形式 加 入 混 
辑 回归 导数 。 值 得 注意 的 是 ， 基 于 逻辑 回归 的 增强 是 真正 的 优化 ， 对 于 第 3 章 中 的 任意 矩 
阵 分 解 方法 它 都 适用 ， 而 不 仅仅 在 基于 信任 的 方法 中 使 用 。 
11. 3. 8.2 社交 信任 成 分 的 变形 
上 述 和 矩阵 分 解法 的 变形 有 很 多 ， 特 别 是 如 何 形式 化 定义 目标 函数 中 的 社交 信任 成 分 。 
1) 除了 使 用 一 个 mX& 的 社交 因子 和 矩阵 ZZ 强加 到 TT 上， 使 得 TasUZT， 我 们 还 可 以 用 一 
个 kX&k 的 矩阵 瑟 蔡 换 Z， 使 得 TUHUT。 相 应 目标 函数 中 的 社交 相关 项 会 被 修改 为 ‖T 一 
UHUT |°. HWE., E 五 捕捉 各 种 用 户 潜在 组 件 之 间 的 成 对 的 相关 性 。 该 方法 被 称 为 
LOCALBAL™*4], 445, WF] SoRec 一 样 ， 也 可 以 在 目标 函数 里 使 用 逻辑 回归 函数 ， 尽 
管 原 来 的 工作 中 不 使 用 这 种 方法 。 
需要 注意 的 是 ， 这 种 方法 的 形式 类 似 于 SoRec 算法 ， 除 了 参数 Z=UHT。 和 抢 阵 百 仅仅 有 
ke 个 变量 ， 而 Z 有关 个 变量 。 因 此 ，LOCALBAL EE SoRec， 对 于 用 户 的 社交 关联 结构 
做 了 更 强 的 假设 。 更 少 的 变量 减 小 了 过 拟 合 的 可 能 性 ， 其 代价 是 增加 了 高 偏差 的 可 能 性 。 
2) SocialMF 算法 7 中] 的 强制 约束 是 UTU。 需 要 注意 的 是 ，TU 是 未 定义 的 ， 因 为 T 
的 一 些 项 可 能 是 未 知 的 。 为 了 计算 TU， 我 们 把 未 知 的 项 设 为 0。 相 应 目标 函数 中 的 社交 成 
分 被 定义 为 U 一 TU ?。 假设 T 的 每 一 行 被 归 一 化 ， 使 其 求 和 为 1 。 逻 辑 回 归 函 数 仅仅 
被 用 于 | R 一 g(UVT) | 上? 。 需 要 注意 的 是 ， 由 于 没有 和 矩阵 Z， 因 子 变量 的 数量 会 更 少 。 事 实 
上 ， 其 因子 变量 的 数量 和 常规 矩阵 分 解 中 的 完全 一 样 。 减 少 因子 变量 的 数量 将 有 助 于 避免 
过 拟 合 ， 但 会 以 高 偏差 作为 代价 。 
该 方法 将 每 个 用 户 在 其 所 有 邻居 上 的 信任 加 权 平 均 偏好 甜 阵 设置 为 该 效用 户 的 偏好 向 
量 。 这 是 了 的 每 一 行 都 被 归 一 化 的 结果 。 一 个 基本 的 假设 是 ， 由 于 社会 影响 力 ， 用 户 的 行 
为 会 受到 她 直接 邻居 行为 的 影响 。 
3) 社交 正则 化 : 在 这 种 方法 中 B32] ， 用 户 因 子 会 强制 性 地 在 链接 中 更 加 相似 ， 用 目 
标 函 数 中 信任 值 加 权 体 现 相似 性 的 差异 。 换 言 之 ， 如 果 坏 是 U 的 第 i 行 ， 那么 目标 函数 的 
社交 部 分 就 是 忆 了 Gi,j ,>0 三 有 五 一 硬 上。 这 种 方法 也 可 以 被 看 作 是 强制 同 质 化 的 间接 方式 ， 
而 且 在 隐 式 推断 信任 值 中 工作 得 很 好 。 公 式 (11- 2) 说 明了 一 个 这 样 的 隐 式 推断 信任 
值 的 例子 。 这 种 方法 的 许多 变形 (比如 基于 平均 值 的 正则 化 方法 ) 也 在 论文 中 被 讨论 。 基 
于 平均 值 的 正则 化 方法 和 SocialMF 算法 有 些 相似 。 
本 章 的 11.6 节 也 提 到 了 其 他 一 些 对 基本 目标 函数 的 变形 。 


11. 3.9 社交 推荐 系统 的 优点 


社交 推荐 系统 有 很 多 优点 ， 因 为 它们 在 推荐 过 程 中 包含 了 信任 度 信息 。 这 对 提高 物品 
推荐 的 质量 、 处 理 冷 启动 问题 ， 以 及 防止 攻击 是 特别 有 用 的 。 





日 ”评分 不 总 在 (0，1) 之 间 。 如 果 需 要 ， 评 分 矩阵 可 以 被 缩放 为 (ri 一 rmin)/(rmox 一 7min)， 这 样 取 值 就 会 一 直 在 
(0，1) 之 间 。 
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11. 3.9. 1 对 有 争议 的 用 户 和 物品 的 推荐 

包含 信任 度 信 息 的 最 大 的 优势 就 在 于 对 于 有 争议 的 用 户 和 物品 的 推荐 质量 能 得 到 改 
善 。 有 争议 的 用 户 是 指 那些 不 同意 其 他 用 户 对 一 些 具体 的 物品 的 评分 的 用 户 E23] 。 争 议 的 
物品 是 指 那些 接受 两 极 化 评分 的 物品 。 在 这 样 的 情况 下 ， 使 用 信任 度量 一 般 会 显著 提高 在 
特定 的 用 户 或 特定 物品 上 的 推荐 精确 性 [223'406,567] ， 因 为 在 这 种 情况 下 用 户 的 意见 是 高 度 
个 性 化 的 。 例 如 ， 更 相似 的 用 户 或 者 彼此 信任 的 用 户 就 更 有 可 能 为 有 争议 的 物品 提供 类 似 
的 评分 。 

11. 3. 9.2 对 冷 启 动 的 好 处 

社交 链接 对 处 理 新 用 户 的 冷 启动 问题 特别 有 益 。 考 虑 一 个 链接 预测 系统 被 用 于 推荐 的 
情况 。 新 用 户 进 入 系统 后 ， 没 有 对 推荐 系统 中 的 任何 物品 进行 评分 ; 相应 的 也 没有 任何 涉 
及 该 用 户 的 物品 一 用 户 链接 。 另 一 方面 ， 如 果 有 该 用 户 的 社交 链接 ， 那 么 链接 预测 方法 仍 
然 可 以 被 用 于 预测 最 好 的 匹配 物品 。 对 其 他 一 些 推荐 方法 ， 例 如 矩阵 分 解 ， 这 样 的 观察 依 
然 成 立 。 其 主要 的 假设 即 是 虽然 用 户 还 未 使 用 该 推荐 系统 ， 但 用 户 的 社交 链接 已 经 可 用 。 
这 在 隐 式 推断 的 信任 网 络 中 尤其 正确 。 在 任何 情况 下 ， 社 交 链 接 总 是 增加 更 多 的 数据 ， 这 
对 缓解 推荐 系统 中 的 稀 朴 问题 很 有 帮助 。 

11.3.9.3 防止 攻击 

一 般 对 商家 而 言 ， 总 是 有 显著 的 商业 目的 会 试图 “欺骗 ”由 第 三 方 托管 的 推荐 系统 。 
例如 ， 一 个 物品 的 制造 商 可 能 会 为 其 在 Amazon. com 的 物品 张贴 虚假 评论 。 在 许多 情况 
下 ， 这 样 的 评论 是 由 制造 商 创 建 的 虚拟 用 户 画 像 发 表 的 。 基 于 信任 的 推荐 系统 对 这 样 的 攻 
击 更 有 抵抗 力 ， 这 是 因为 它们 的 算法 是 基于 值得 信任 的 用 户 对 物品 的 评分 进行 推荐 。 例 
W, AR 〈11-3) 和 公式 (11-4) 在 预测 过 程 中 为 用 户 之 间 的 信任 度 进行 了 明确 地 加 权 。 
用 户 极 不 可 能 使 用 虚假 画像 来 建立 信任 关系 。 因 此 ， 这 种 方法 不 太 可 能 在 推荐 过 程 中 使 用 
虚假 画像 的 评分 。 防 止 攻击 的 推荐 系统 的 相关 内 容 将 在 下 一 章 中 详细 讨论 。 


11.4 社交 推荐 系统 中 的 用 户 交互 


新 一 代 网 络 ， 也 被 称 为 Web 2. 0， 已 经 支持 许多 开放 式 系 统 的 发 展 ， 用 户 在 其 系统 中 
能 积极 地 参与 并 留 下 反馈 。 尤 其 是 社会 标签 系统 (social tagging system)， 它 们 允许 用 户 
去 创造 和 分 享有 关 媒 体 对 象 的 元 数据 。 这 样 的 元 数据 也 被 称 为 标签 (tag)。 用 户 可 以 给 被 
社交 网 络 支 持 的 任何 形式 的 对 象 做 标签 ， 比 如 图 像 、 文 档 、 音 乐 或 录像 。 事 实 上 ， 所 有 的 
社交 媒体 网 站 允许 若干 形式 的 标签 。 以 下 是 一 些 标签 系统 的 例子 : 

© Flickr’? 允许 用 户 使 用 关键 词 去 标记 图 像 。 例 如 ， 一 个 关键 词 可 能 描述 了 一 个 特 

定 图 像 中 的 场景 或 物品 。 

e 网 站 “last. fm" 以 音乐 为 主题 ， 并 允许 用 户 标记 音乐 。 

e Dilicious[7%21 促 进 了 书签 共享 和 在 线 链接 的 发 展 。 

e Bibsonomyt256,708 系 统 允 许 用 户 共 享 并 标记 出 版 物 。 

e Amazon 网 站 曾 允 许 其 顾客 标记 物品 [709] 。 

去 检验 社会 标签 网 站 (例如 “last. fm”) 所 创建 的 标签 的 本 质 是 有 启发 意义 的 。 关 于 
迈克 尔 。 杰 克 逊 的 著名 唱片 《战栗 》， 在 “last, fm” 网 站 的 热门 标签 如 下 : 

“ 死 前 必 听 的 1001 张 喝 片 ”、“20 世纪 80 年 代 ”、“1982” “1983”、“80 年 代 流 行 ”、 
“唱片 "”、“ 我 所 拥有 的 唱片 ””“ 我 所 拥有 的 黑 胶 唱片 “”“ 避 开 ”、“ 经 典 ”、“ 流 行经 典 ”、 
“RAR”. “BACH”. “ATH wh”, “MARL RR”, RR” eee 
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因为 这 些 标签 是 在 一 个 开放 的 供 人 分 享 的 环境 下 由 用 户 而 非 专家 所 创建 的 ， 因 此 它们 
非常 通俗 日 常 。 注 意 ,“thirller” (ARSE) 是 一 个 错 拼 词 ， 在 这 样 的 设置 中 ， 错 拼 是 非常 常 
见 的 。 此 外 ， 所 有 歌曲 按照 其 标签 被 创建 了 索引 。 例 如 ， 点 击 “ 摇 深 经 典 ” 的 标签 ， 便 可 
以 访问 与 此 标签 有 关 的 不 同 资源 (艺术 家 、 唱 片 或 事件 )。 换 言 之 ,标签 “摇滚 经 典 ” 如 
同 书签 或 索引 一 样 ， 能 用 其 访问 相关 资源 。 

这 种 标记 过 程 ， 也 被 称 为 “大 众 分 类 法 ”， 导 致 了 对 内 容 的 组 织 和 对 知识 的 构建 。“ 大 
众 分 类 法 ”这 一 术语 源 于 它 的 词根 “民间 ”和 “分 类 学 ”， 因 此 该 名 字 直 观 地 表示 了 这 一 
过 程 ， 即 是 由 非 专业 人 士 、 志 愿 者 、 参 与 者 (也 就 是 普通 民众 ) 在 万 维 网 上 对 网 络 对 象 的 
分 类 。 这 个 名 字 是 由 Thomas Vander Wal 提出 的 ， 他 对 这 个 词 的 定义 如 下 5707] ， 

“大 众 分 类 法 是 : 由 个 人 自由 地 标记 被 检索 出 的 信息 和 对 象 ( 任 何 附 有 URL 

网 址 的 事物 ) 的 结果 。 标 签 在 一 个 社交 环境 (通常 是 共享 以 及 向 他 人 开放 的 ) 中 

完成 。 大 众 分 类 法 是 在 人 们 在 消费 信息 时 对 事物 做 标记 而 产生 的 。 

这 种 外 部 标签 的 值 米 源 于 人 们 运用 自己 的 词汇 对 事物 添加 明确 的 含义 ,这样 

的 含义 可 能 来 自 于 人 们 对 该 信息 /对 象 所 推断 出 的 理解 。 相 比分 类 而 言 ， 人 们 更 

愿意 根据 自己 的 理解 来 提供 信息 /对 象 的 含义 ， 从 而 把 信息 /对 象 关联 起 来 。” 

另 一 个 用 于 描述 社会 性 标签 的 术语 包括 协作 标记 (collaborative tagging)、 社 会 分 类 
(social classification) 和 社会 索引 (social indexing)。 标 签 提供 了 对 对 象 主题 的 理解 ， 其 
常常 是 通用 并 易于 理解 的 词汇 。 因 此 ， 社 会 性 标签 的 本 质 是 : 其 参与 者 实际 上 是 一 笔 财 
产 ， 它 们 为 这 样 的 系统 做 出 了 协同 合作 的 贡献 。 标 签 也 被 称 为 社会 索引 ， 因 为 它们 还 起 到 
了 组 织物 品 的 作用 。 例 如 ， 通 过 点 击 一 个 标签 ， 用 户 能 够 浏览 和 标签 相关 的 物品 。 

大 众 分 类 法 有 许多 的 应 用 ， 包 括 推荐 系统 [237] 。 在 特定 应 用 下 的 推荐 系统 ， 大 众 分 类 
法 因为 其 提供 了 关于 对 象 的 可 用 知识 而 十 分 有 价值 。 尽 管 有 时 标签 对 对 象 的 描述 是 有 了 噪声 
的 并 且 不 太 相 关 的 ， 但 至 少 每 个 标签 都 能 被 看 作 是 描述 对 象 的 一 个 特征 。 虽 然 标 签 具 有 了 噪 
声 ， 但 观察 发 现 ， 通 过 对 评分 或 其 他 数据 源 中 的 知识 进行 补充 ， 社 会 标签 法 能 显著 提高 推 
荐 系统 的 有 效 性 。 


11.4.1 大 众 分 类 法 的 代表 


在 标签 系统 中 ， 用 户 用 标签 来 注释 物品 (或 资源 )。 而 物品 的 特性 取决 于 其 所 在 的 系 
统 。 比 如 对 Flickr 来 说 ， 其 物品 可 能 是 一 张 图 片 ， 或 者 对 last. fm 来 说 ,一 个 物品 即 是 一 
首 歌 。 因 此 ， 在 用 户 、 物 品 和 标签 之 间 存 在 着 一 种 三 方 关 系 。 相 应 地 ， 它 可 以 被 表示 成 一 
个 超 图 ， 其 中 每 一 个 超 边 连接 着 三 个 对 象 。 它 也 可 以 被 表示 为 一 个 三 维 立 方 体 (或 张 量 )， 
其 中 包含 着 一 个 用 户 是 否 已 经 为 一 个 特定 物品 (如 图 像 ) 标记 了 一 个 特定 的 标签 (例如 ， 
“风景 ”) 的 一 元 二 进 制 信息 。 如 果 标 记 了 ， 则 对 应 的 位 设 为 1， 否则 对 应 位 设 为 未 指定 的 
(unspecified)。 在 许多 情况 下 ， 为 了 分 析 的 目的 ， 我 们 将 未 指定 的 值 约 等 于 0。 图 11-6 中 
给 出 了 一 个 由 超 图 和 张 量 表示 的 由 6 个 用 户 、4 个 物品 (图像) 和 5 个 标签 构成 的 小 例子 。 
图 11-6a 给 出 了 超 图 的 表示 ， 而 图 11-6b 给 出 了 三 维 立方 体 的 表示 。 例 如 ，Ann 将 物品 2 
标记 为 “ 花 打 ”， 这 在 图 11-6a 中 则 表示 为 对 应 三 个 实体 之 间 的 一 条 超 边 ， 而 在 图 11-6b 中 
则 表示 为 对 应 位 被 设置 为 1。 大 众 分 类 法 的 形式 化 定义 如 下 : 

定义 11. 4. 1 (大 众 分 类 法 ) 给 定 m 个 用 户 、n 个 物品 和 pp 个 标签 ， 其 大 众 分 类 法 
是 一 个 大 小 为 mXnXp 的 三 维 数 组 下 二 [fix]，fix 是 一 个 一 元 的 数值 ， 表 明 用 户 i 是 否 将 
物品 7 标记 为 第 上 个 标签 。 换 言 之 ，fijp 的 值 被 定义 如 下 : 
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1 如 果 用 户 i 将 第 7 个 物品 标记 为 第 & 个 标签 
f= 未 指定 的 ”其 他 (11-14) 
在 实际 设置 中 ， 未 指定 的 值 被 默认 设置 为 0， 如果 在 高 度 稀 朴 的 隐 式 反馈 中 的 设置 一 样 。 
今后 ,我们 将 用 王 表示 “标签 立方 体 ”。 从 图 11- 6 可 以 看 出 ， 大 众 分 类 法 和 上 下 文敏 感 的 
推荐 系统 〈 见 第 8 章 ) 中 的 多 维 表示 形式 有 很 多 共同 点 。 我 们 在 后 面 将 会 看 到 ， 这 种 共同 
点 十 分 有 用 ， 因 为 可 以 用 第 8 章 中 许多 方法 来 处 理 其 中 一 些 查 询 。 
尽管 图 11- 6 是 一 个 小 例子 ， 而 实际 的 社交 平台 上 ， 用 户 和 物品 的 数量 会 是 数 以 亿 计 的 ， 
例如 Flickr， 而 标签 的 数量 大 约 有 百 万 个 。 因 此 ， 这 样 的 系统 在 数据 丰富 的 环境 中 面临 着 可 扩 


展 性 的 挑战 。 对 于 社会 性 标签 推荐 系统 来 说 ， 这 样 的 问题 既是 我 们 的 挑战 ， 但 同样 也 是 机 遇 。 
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物品 (图像 ) 
a) 超 图 的 表示 
Ea | David 将 物品 1 
te 标记 为 “白宫 ” 
oval | | f Soitan? 
Sayani Ze 4 
nl | 人 
户 | Mark LEnw Rs, 
ano} | fay | + 
w ETON Ke 
物品 (MD) há 
Ann 将 物品 3 标记 为 “ 花 打 ” 
b) 多 维 立方 体 的 表示 


图 11-6 大 众 分 类 法 的 不 同 表 示 方 法 
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11.4.2 社会 性 标签 系统 中 的 协同 过 滤 


推荐 的 形式 依赖 于 应 用 的 类 型 。 对 一 些 网 站 ， 例 如 Flickr， 其 标签 信息 可 用 但 评分 信 
息 并 不 可 用 。 在 这 样 的 情况 下 ， 仍 可 以 开发 一 个 基于 标签 立方 体 对 标签 或 者 物品 进行 推荐 
的 系统 。 在 其 他 一 些 情况 下 ，mXn 的 评分 矩阵 R 和 m XnX p 的 标签 矩阵 了 都 是 可 用 的 。 
其 评分 矩阵 和 标签 立方 体 都 定义 在 相同 的 用 户 集合 和 物品 集合 上 。 例 如 ，MovieLens 网 站 
既 包 含 了 评分 信息 ， 也 包含 了 标签 信息 。 其 相应 的 协同 过 滤 系 统 被 称 为 标签 已 知 的 推荐 系 
统 ， 其 中 评分 矩阵 是 主要 数据 ， 而 标签 信息 则 提供 了 额外 的 辅助 信息 来 提高 评分 预测 的 精 
确 度 。 注 意 ， 评 分 矩阵 可 以 是 一 个 隐 式 反馈 矩阵 ， 例 如 对 于 网 站 last. fm， 用 户 对 物品 的 
访问 历史 都 被 记录 下 来 。 事 实 上 ， 隐 式 反 馈 在 社会 性 标签 网 站 中 更 加 普遍 。 从 算法 角度 来 
看 ， 隐 式 反 馈 模 型 因 其 通常 不 包含 负 评 分 ， 未 知 项 通常 被 设 为 是 0 作为 近似 ， 而 更 易 使 
用 。 在 下 文中 ， 除 非 另 作 说 明 ， 我 们 将 假设 存在 一 个 明确 的 评分 矩阵 。 

当 评 分 和 矩阵 可 用 时 ， 协 同 过 滤 查 询 的 形式 比 只 有 标签 信息 可 用 时 的 查询 形式 要 丰富 很 
多 。 在 这 种 情况 下 ， 标 签 立 方 体 和 评分 矩阵 的 用 户 和 物品 维度 相同 ,但 评分 矩阵 不 包含 标 
签 这 一 维度 。 为 了 提供 推荐 ， 这 两 处 来 源 的 信息 被 集成 到 一 起 。 值 得 注意 的 是 ， 这 一 方法 
可 以 被 看 作 是 基于 内 容 的 协同 过 滤 应 用 的 泛 化 。 在 基于 内 容 的 协同 过 滤 中 ， 关 键 词 只 与 物 
品 关 联 ， 然 而 在 标签 立方 体 中 关键 词 与 “用 户 一 物品 ”的 组 合 关联 。 可 以 将 基于 内 容 的 推 
荐 系统 看 成 是 标签 立方 体 的 一 个 特例 ， 在 这 其 中 “物品 -标签 ”的 二 维 切 片 对 于 每 一 个 用 
户 而 言 是 完全 相同 的 。 因 此 ， 后 面 章 节 讨论 的 许多 方法 也 能 被 用 于 基于 内 容 的 协同 过 滤 。 

由 于 应 用 的 多 样 性 ， 协 同 过 滤 问 题 的 形式 也 多 种 多 样 ， 而 当前 的 研究 工作 并 没有 完全 
都 涵盖 。 实 际 上 ， 仍 有 许多 的 协同 过 滤 问 题 有 竺 研究， 正巧 这 也 是 近期 的 热门 研究 领域 
下 面 给 出 了 一 些 查询 的 例子 : 

1) (只 有 标签 数据 ) 给 定 一 个 mXnXp 的 标签 立方 体 F， 推 荐 : 

(a) 给 用 户 i 一 份 标签 排序 表 。 

(b) SAP i 一 份 有 着 相同 兴趣 (标签 模式 ) 的 用 户 排 序 表 。 

(c) BAP i 一 份 物品 的 排序 表 。 

(d) BAP i 一 份 关于 物品 ; 的 标签 排序 表 。 

(e) BAP i 一 份 符合 k 标签 语 境 的 物品 排序 表 。 

《有 标签 数据 和 评分 矩阵 ) 给 定 一 个 评分 矩阵 R 和 一 个 mXnXzp 的 标签 立方 体 F， 
推荐 : 

(a) 给 用 户 i 一 份 物品 的 排序 表 。 

b) BAP i 一 份 符合 k 标签 语 境 的 物品 排序 表 。 

上 述 的 查询 可 以 被 分 成 两 类 。 第 一 类 查询 并 不 使 用 评分 和 矩阵。 在 这 样 的 查询 中 ， 对 标 
签 和 用 户 的 推荐 比 对 物品 的 推荐 更 为 重要 ， 尽 管 其 方法 也 可 能 被 用 于 物品 推荐 。 因 为 标签 
充当 着 资源 Mi) 的 书签 和 索引 ， 所 以 寻找 相关 的 标签 也 是 寻找 相关 物品 的 一 种 方法 。 
第 二 类 查询 与 传统 推荐 系统 关联 更 紧密 ， 因 为 它们 主要 是 基于 评分 矩阵 RR。 与 传统 推荐 系 
统 唯 一 的 不 同 之 处 在 于 ， 标 签 立方 体 被 当 作 辅 助 信息 使 用 ， 并 因 其 中 包含 了 噪声 ， 故 扮演 
着 一 个 次 等 的 角色 。 这 样 的 方法 也 被 称 为 “标签 推荐 “55 或 “提供 标签 的 协同 过 滤 江 873] 。 
此 类 系统 最 主要 的 优势 在 于 它们 能 将 用 户 评 分 和 标签 活动 的 这 两 个 重要 的 方面 整合 在 一 
起 。 一 般 来 说 ， 第 二 种 类 型 的 查询 方法 较 少 ， 但 有 越 来 越 多 的 方法 可 以 把 评分 矩阵 和 标签 
立方 体 的 知识 集成 到 一 起 。 值 得 一 提 的 是 ， 可 能 并 没有 明确 的 评分 矩阵 ， 可 用 的 只 有 隐 式 
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反馈 〈 例 如 ， 购 买 行为 )， 那 么 矩阵 R 就 是 一 个 一 元 评分 和 矩阵。 注意， 即使 R 是 隐 式 反馈 
得 来 的 ， 它 仍然 是 独立 于 标签 立方 体 的 数据 。 


11.4.3 选择 有 价值 的 标签 


由 于 对 标签 的 创建 和 使 用 都 是 开放 式 的 ， 因 此 标签 通常 有 很 多 噪声 。 在 许多 情况 下 ， 
用 户 可 能 会 使 用 不 规范 的 词汇 或 错 拼 词 去 标记 物品 。 这 就 导致 出 现 了 很 大 比例 的 噪声 和 不 
相关 标签 。 若 使 用 不 相关 的 标签 ， 将 会 对 许多 推荐 应 用 产生 有 害 的 影响 。 因 此 ， 预 先 挑选 
出 一 个 小 规模 的 标签 会 带 来 帮助 。 从 计算 复杂 性 来 说 ， 对 标签 的 预先 选择 也 减少 了 数据 挖 
据 过 程 中 的 计算 。 因 此 ， 标签 选择 算法 通常 是 基于 简易 的 规则 对 标签 进行 排序 并 依据 这 些 
标准 预先 挑选 出 排 在 前 面 的 标签 。 

许多 标签 网 站 会 使 用 一 种 简单 的 方法 ， 被 称 为 “数量 -物品 -应 用 ”。 该 方法 用 给 一 个 
物品 添加 一 个 特定 标签 的 人 数 来 估计 未 来 会 有 多 少 人 愿意 看 到 这 个 标签 。 这 个 评估 也 可 以 
看 作 是 该 标签 的 权重 。 还 有 其 他 一 些 启 发 式 的 特征 常常 被 用 于 评估 标签 的 质量 。 例 如 ， 一 
些 标 签 可 能 是 全 局 有 价值 的 ， 而 其 他 一 些 标签 可 能 只 针对 特定 物品 。[536] 中 提出 了 大 量 
的 这 样 的 特征 来 评估 标签 的 质量 。 表 11- 1 中 列 出 了 其 中 一 些 特征 。 标 签 的 特异 性 〈 全 局 
或 局 部 ) 也 被 指明 。 值 得 一 提 的 是 ， 其 中 某 些 特征 [536] 假设 用 户 对 标签 进行 了 “喜欢 ” 
或 “不 喜欢 ”的 评分 。 这 样 的 信息 并 不 在 所 有 系统 中 都 有 用 ， 因 此 在 表 11- 1 中 并 没有 包 
括 这 类 特征 。[535，536] 中 讨论 了 对 这 些 特征 的 实验 性 评估 。 实 验 结果 发 现 : 在 例如 数 
量 一 物品 一 应 用 、 标 签 一 共享 和 平均 一 比例 一 物品 一 被 标记 这 类 特征 上 的 推荐 性 能 很 好 。 男 一 
方面 ， 对 于 其 他 一 些 特征 ， 例 如 数量 一 应 用 、 数 量 一 用 户 和 标签 一 长 度 ， 其 推荐 性 能 并 不 是 
最 佳 。 进 一 步 地 ， 如 果 把 5 个 最 好 的 特征 合并 为 一 个 特征 ， 被 称 为 “全 部 一 隐 式 ”， 会 使 得 
系统 的 性 能 比 使 用 单一 特征 时 更 好 。 推 导 这 一 特定 特征 的 更 多 详情 请 参见 [535，536] 。 


表 11-1 用 于 评估 标签 质量 的 特征 列表 [536] 






标签 被 排序 的 标准 
标签 被 应 用 于 一 个 特定 物品 的 次 数 
标签 被 应 用 于 物品 的 次 数 











数量 一 物品 一 应 用 






































数量 一 用 户 每 个 标签 使 用 该 标签 的 用 户 的 数目 

数量 一 搜索 | 每 个 标签 该 标签 被 搜索 的 次 数 

数量 一 搜索 一 用 户 每 个 标签 搜索 该 标签 的 用 户 数目 

标签 一 共享 每 个 物品 一 标签 | ”一 个 特定 标签 占 所 有 标签 的 比例 





对 于 一 个 给 定 标签 ， 每 个 使 用 该 标签 的 用 户 所 使 用 的 所 有 标签 
所 占 的 比例 的 平均 值 
标签 被 用 于 其 所 对 应 物品 次 数 的 平均 数 
标签 中 的 单词 数 
标签 中 的 字母 数 


平均 一 比例 一 物品 一 被 标记 | 每 个 标签 





应 用 一 每 个 一 物品 
数量 一 标签 一 单词 


每 个 标签 
每 个 标签 








撤 开 这 些 研究 方法 ， 特 征 选择 方法 在 第 4 章 4. 3.4 节 中 也 可 能 被 使 用 。 第 一 步 是 把 标 
签 立方 体 通过 对 不 同 用 户 上 的 物品 一 标签 频率 进行 聚集 从 而 转化 成 一 个 二 维 的 物品 一 标签 
的 切片 。 通 过 把 每 个 标签 当 作 一 个 “ 词 ”， 该 方法 能 产生 一 个 “词语 一 文档 ”和 矩阵。4. 3. 4 
节 中 的 任何 的 方法 都 可 能 被 用 于 选择 最 有 区 别 性 的 标签 。 


11.4.4 无 评分 矩阵 的 社会 性 标签 推荐 
这 种 情况 也 可 以 被 看 作 是 在 上 下 文敏 感 推荐 系统 的 多 维 模型 的 一 个 特例 。 标 签 立方 体 
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可 以 被 看 作 是 一 个 多 维 立方 体 ， 其 中 标签 表示 上 上 下文。 因此， 上 下 文敏 感 模 型 可 以 用 来 解 
决 这 些 查询 。 事 实 上 ， 从 原则 上 讲 ， 被 用 于 上 下 文敏 感 排序 的 张 量 分 解 模 型 [85'46] 与 标签 
推荐 中 的 张 量 分 解 模 型 97,498] 没 有 太 大 区 别 。 有 关上 下 文敏 感 推荐 系统 的 多 维 模型 在 第 8 
章 8.2 节 有 详细 讨论 。 

如 前 面 所 讨论 的 ， 在 社会 标签 推荐 中 的 查询 可 以 有 多 种 形式 ， 可 能 是 推荐 物品 、 者 标 
签 或 者 用 户 。 标 签 立 方 体 是 三 维 的 ， 且 人 们 可 能 从 各 种 维度 上 做 推荐 。 在 这 些 不 同 的 形式 
中 ， 推 荐 标签 是 最 常见 的 。 这 样 做 的 原因 是 推荐 标签 对 用 户 和 平台 都 是 有 益 的 : 

D 对 平台 的 效用 : 由 于 标签 不 规范 ， 不同 的 用 户 对 同样 的 物品 (资源 ) 可 以 使 用 不 
同 的 关键 词 描述 。 对 一 个 特定 物品 推荐 标签 有 助 于 巩固 其 描述 。 这 种 隐 式 描述 的 巩固 有 助 
于 系统 收集 更 好 的 标签 ， 因 此 需 提 高 推荐 的 质量 。 

2) 对 用 户 的 效用 : 可 能 会 根据 一 个 物品 向 用 户 推荐 标签 ， 也 可 能 根据 用 户 的 兴趣 对 
用 户 推 荐 标签 。 基 于 物品 的 标签 推荐 的 动机 是 : 用 户 可 能 会 觉得 给 物品 添加 标签 很 麻烦 。 
当 对 一 个 给 定 物品 推荐 相关 标签 时 ， 这 使 得 他 们 的 工作 变 得 更 容易 ， 而 且 他 们 更 有 可 能 参 
与 对 物品 标记 的 过 程 。 相 应 地 ， 系 统 也 因此 收集 到 更 多 的 标签 数据 。 对 特定 用 户 的 标签 推 
荐 是 有 益 的 ， 因 为 标签 的 目的 常常 是 对 不 同 用 户 个 性 化 地 组 织物 品 。 例 如 ， 图 11-6 可 能 
代表 了 如 Flickr 的 图 像 浏 览 环 境 。 如 果 根 据 Ann 的 其 他 标签 ，Ann 被 推荐 了 标签 天 空 
Csky)， 通 过 点 击 这 个 标签 ， 她 可 能 会 发 现 其 他 感 兴趣 的 物品 。 也 可 以 将 标签 数据 与 评分 
矩阵 相 结合 ， 得 到 高 质量 的 推荐 。 

以 下 部 分 回顾 了 已 经 提出 的 用 于 在 社会 标签 系统 的 各 类 推荐 方法 。 

11. 4. 4. 1 上 下 文敏 感 系统 的 多 维 方法 

在 第 8 章 8. 2 节 中 讨论 的 多 维 方法 可 用 于 构建 社会 性 标签 推荐 系统 。 其 基本 思想 是 在 
查询 的 一 对 特定 维度 上 对 数据 进行 投影 ， 然 后 在 三 个 维度 上 使 用 基于 内 容 查询 的 预 过 滤 
BBs 

例如 ， 为 了 给 特定 用 户 推 荐 最 佳 标签 ， 可 以 对 不 同 物品 上 的 标签 的 频率 做 聚集 。 换 句 话 
说 ， 就 是 计算 一 个 用 户 在 所 有 物品 上 使 用 特定 标签 的 次 数 。 这 就 产生 了 一 个 二 维 的 用 户 一 标 
签 的 非 负 频 率 和 矩阵 。 任 何 传统 的 协同 过 滤 算 法 可 以 用 在 该 矩阵 上 给 特定 用 户 来 推荐 标签 。 
这 是 给 用 户 推荐 标签 的 最 好 的 方法 ， 但 它们 不 使 用 物品 信息 。 尽 管 如 此 ， 这 种 方法 在 现实 
生活 中 仍 很 有 用 。 由 于 标签 还 有 索引 功能 ， 标 签 可 以 被 用 于 发 现 用 户 感 兴趣 的 资源 。 类 似 
地 ， 沿 标签 维度 对 频率 的 聚集 导致 产生 了 一 个 用 户 -物品 矩阵 。 这 个 矩阵 能 够 被 用 于 向 用 户 
推荐 物品 。 

使 用 这 些 聚 合 方法 的 一 个 缺点 是 ， 沿 着 某 一 维 的 信息 会 被 忽略 。 也 可 以 在 推荐 过 程 
中 ， 整 合 所 有 维度 的 信息 。 假 设 我 们 要 给 一 个 特定 用 户 推荐 最 佳 的 标签 或 最 优 的 物品 。 其 
中 一 种 方法 就 是 基于 聚集 的 用 户 一 标签 矩阵 来 计算 用 户 之 间 的 相似 度 。 同 样 ， 也 可 以 在 聚 
集 的 用 户 - 物 品 矩 阵 上 做 这 样 的 计算 。 两 个 测度 的 线性 组 合 被 用 于 生成 一 个 和 目标 用 户 最 
相似 的 用 户 。 接 着 ， 可 以 使 用 标准 预测 方法 (参见 第 2 章 中 公式 (2-4)) 来 推荐 最 相关 的 
物品 或 者 最 相关 的 标签 。 类 似 的 方法 也 可 以 被 用 于 基于 物品 的 协同 过 滤 。 即 从 一 个 目标 物 
品 开 始 ， 根 据 聚 集 的 用 户 一 物品 矩阵 或 者 聚集 的 标签 一 物品 矩阵， 找到 和 它 最 相似 的 物品 。 

另 一 个 有 用 的 查询 是 针对 某 个 特定 标签 的 上 下 文 向 用 户 做 物品 推荐 。 上 下 文敏 感 系统 
中 的 预 过滤 和 后 过 滤 方 法 (参见 8. 3 节 和 8.4 节 ) 可 以 被 用 于 实现 这 一 目标 。 例 如 ， 如 果 
想 要 推荐 和 标签 “animation” (卡通 片 ) 相关 的 电影 ， 那 么 对 应 着 “animation” 的 标签 一 
立方 体 的 切片 就 可 以 被 提取 出 来 。 这 个 过 程 会 产生 一 个 关于 卡通 电影 的 二 维 的 用 户 一 物品 
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矩阵。 传统 的 协同 过 滤 算 法 可 以 被 用 于 该 矩阵 来 做 推荐 。 使 用 该 方法 的 一 个 挑战 是 所 提取 
的 用 户 - 物 品 切 片 可 能 会 过 于 稀疏 。 为 了 解决 稀 朴 性 问题 ， 可 以 将 相关 的 标签 分 成 一 组 ， 
即 标签 的 聚 类 。 人 例如， 一 个 标签 类 可 能 包含 “animation”“children” (儿童 ) “for kids” 
(给 小 孩 的 ) 等 。 这 些 相关 标签 对 应 的 用 户 -物品 的 标签 频率 可 以 被 加 和 到 一 起 构成 一 个 聚 
集 的 用 户 =- 物 品 和 矩阵 ， 这 上 比 之 前 的 矩阵 要 稠密 。 从 而 可 以 在 这 个 聚集 的 矩阵 上 做 有 效 的 推 
#. (70, 215, 542] 提出 了 一 系列 标签 -- 聚 类 的 方法 。 尽 管 它们 的 工作 是 研究 标签 聚 类 在 
基于 文本 方法 中 的 应 用 ， 这 类 技术 也 可 以 被 用 于 提高 协同 过 滤 的 有 效 性 。 

最 后 ， 张 量 分 解 方 法 在 社会 性 标签 推荐 中 日 益 普及 。 在 第 8 章 8.5.2 节 中 ， 这 些 方法 
被 作为 上 下 文敏 感 系统 的 一 种 特例 被 探讨 。 该 节 中 讨论 的 一 个 特别 流行 的 方法 是 “相互 作 
用 张 量 分 解 ”(PITF)。 此 外 ， 这 些 方法 已 经 被 泛 化 成 因子 分 解 机 器 的 概念 ， 可 以 被 看 作 
是 潜在 因子 模型 的 泛 化 。 请 参见 8. 5; 2. 1 节 。 

11. 4. 4.2 基于 排名 的 方法 

基于 排名 的 方法 使 用 PageRank 的 方法 ， 以 便 在 有 标签 的 情况 下 做 出 推荐 。 第 10 章 
10. 2 节 提 供 了 排名 方法 的 详细 说 明 。 其 中 有 两 个 著名 的 方法 : FolkRank[?56] 和 Social- 
Rank!6°2] 。FolkRank 和 SocialRank 之 间 的 主要 区 别 在 于 ，SocialRank 在 排名 过 程 中 还 使 
用 了 对 象 之 间 以 内 容 为 中 心 的 相似 性 。 例 如 ， 可 能 基于 图 像 内 容 的 相似 性 在 两 个 图 像 之 间 
添加 链接 。 此 外 ，SocialRank 可 以 被 应 用 于 任意 的 社交 媒体 网 络 ， 而 不 只 是 带 标签 的 超 
图 。 为 了 对 不 同形 式 的 效果 进行 平衡 ，SocialRank 算法 相 比 PageRank 算法 有 了 显著 的 变 
化 。 该 方法 也 能 被 应 用 于 大 众 分 类 (folksonomy)。 而 FolkRank 是 专门 为 大 众 分 类 中 带 标 
签 的 超 图 而 设计 的 。 由 于 SocialRank 在 第 10 章 10. 2. 3. 2 节 中 讨论 过 ， 在 此 我 们 将 集中 描 
述 FolkRank 方法 。 

FolkRank 是 个 性 化 PageRank 算法 (参照 第 10 章 10.2.2 47) 的 简单 调整 。 应 用 Folk- 
Rank 的 第 一 步 是 从 标签 超 图 中 提取 一 个 三 分 图 。 从 标签 超 图 中 提取 的 三 分 图 G=CN, A) 
描述 如 下 : 

D 每 个 标签 、 用 户 和 物品 成 构成 图 G 的 一 个 结 点 。 换 句 话说 ， 每 个 i€ N 为 一 个 用 户 、 
标签 或 物品 。 因 此 ， 对 于 m 个 用 户 、n 个 物品 和 个 标签 ， 图 G 中 包含 (m 十 n 十 p) 个 
结 点 。 

2) 对 于 标签 、 用 户 和 物品 之 间 的 每 条 超 边 来 说 ， 其 中 每 对 实体 之 间 都 会 添加 一 条 无 
向 边 。 因 此 ， 每 个 超 边 对 应 会 添加 三 条 边 。 

然后 在 该 网 络 上 直接 应 用 个 性 化 的 PageRank 方法 。10. 2. 2 节 中 的 个 性 化 向 量 被 设置 
为 : 喜欢 的 物品 、 fete aae Fel Fost 通过 对 重启 概率 的 不 同 设置 方法 ， 可 
以 对 特定 的 用 户 、 标 签 、 物 品 、“ 用 户 - 物 品 “用 户 - 标 签 ” 对 或 “标签 -物品 ”对 进 
行 查询 。 对 查询 响应 的 形式 也 可 以 不 同 。 

作为 这 一 进程 的 结果 ， 高 排名 的 标签 、 用 户 和 物品 对 网 络 中 相关 结 点 提供 了 不 同 的 观 
点 。FolkRank 的 一 个 重要 特点 是 ， 它 在 特定 用 户 相 关 性 中 加 入 了 对 全 局 流行 度 (声望 ) 
的 考虑 。 这 是 因为 所 有 的 排名 机 制 倾向 于 选择 高 联通 度 的 结 点 。 例 如 ， 即 使 在 个 性 化 的 
PageRank 机 制 中 ， 一 个 被 大 量 使 用 的 标签 也 总 是 被 排 得 很 靠 前 。 重 启 概 率 的 值 在 特异 性 
和 普及 性 之 间 权 衡 。 为 了 取消 这 些 因 素 产 生 的 作用 ， 差 异 版 本 的 FolkRank 被 提出 。 其 基 
本 思路 是 执行 以 下 步骤: 

1) PageRank 在 被 提取 出 的 三 分 图 上 进行 无 偏 计 算 。 换 言 之 ， 所 有 结 点 的 重启 概率 都 
是 相同 的 值 : 1/ (mx 十 n 十 p)。 回 想 一 下 ， 标 签 立 方 体 的 大 小 为 mXnXp， 网 络 中 的 结 点 数 
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是 (m 十 n 十 p)。 令 所 得 的 概率 向 量 为 元 。 

2) 对 于 被 查询 的 特定 的 “用 户 一 物品 ”组 合 ,个 性 化 的 PageRank 设置 一 个 增加 的 偏 
差 。 例 如 ， 考 虑 对 一 个 特定 “用 户 一 物品 ”组 合 的 查询 。 令 被 查询 的 用 户 结 点 的 重启 概率 
正比 于 Gm 十 1)/(2m 十 2n 十 p)， 被 查询 的 物品 结 点 的 重启 概率 正比 于 (nn 十 1)/(2m 十 2n 十 
力 )， 剩 余 结 点 的 重启 概率 正比 于 1/(2x 十 22 十 如 ) 。 令 所 得 的 概率 向 量 为 元 o 

3) 结 点 的 相关 性 可 以 从 向 量 元 一 元 中 提取 。 其 值 可 能 为 正 也 可 能 为 负 ， 这 取决 于 相 
似 性 或 不 相似 性 的 程度 。 

这 种 方法 的 主要 优点 是 ， 它 在 很 大 程度 上 抵消 了 全 局 流行 度 的 影响 。 

11. 4.4.3 基于 内 容 的 方法 

基于 内 容 的 方法 既 可 以 向 用 户 推荐 物品 也 可 以 向 用 户 推荐 标签 。 为 了 将 物品 推荐 给 用 
户 ， 可 以 创建 一 个 特定 用 户 的 训练 数据 集 ， 训 练 集中 对 每 个 物品 的 描述 被 表示 成 m 个 用 户 
描述 该 物品 所 使 用 的 标签 的 频率 。 这 些 频 率 可 以 用 tf-idf 格式 来 表示 。 对 于 一 个 给 定 的 用 
户 ， 其 训练 数据 中 包含 所 有 标记 的 物品 ， 和 一 个 没有 添加 任何 标签 的 物品 的 负 样本 。 这 些 
对 象 的 标记 频率 需要 被 学 习 。 特 征 变量 和 因 变 量 (学 习 处 理 过 程 中 ) 对 应 于 每 个 物品 的 
tf-idf 表示 ， 以 及 标签 的 用 户 给 每 个 物品 标记 的 标签 数目 。 注 意 到 对 负 样 本 来 说 ， 因 变量 
为 0。 我 们 在 该 训练 数据 集 上 使 用 基于 回归 的 模型 来 进行 预测 。 

类 似 的 方法 可 以 用 于 推荐 标签 给 用 户 。 其 主要 区 别 是 标签 被 表示 为 物品 的 tf-idf 向 量 
而 非 其 他 形式 。 训 练 集 把 标签 当 作 对 象 进 行 分 类 。 因 此 ， 根 据 用 户 在 不 同 物品 上 使 用 标签 
的 次 数 ， 可 以 对 标签 进行 标记 。 这 个 训练 集 被 用 于 在 用 户 兴趣 未 知 的 情况 下 预测 用 户 对 标 
签 的 兴趣 。 对 于 标签 推荐 的 各 种 基于 内 容 的 方法 的 比较 可 参见 [264]. 

一 个 基于 标签 聚 类 的 物品 推荐 算法 在 [542] 中 提出 。 该 算法 根据 标签 的 tf-idf 描述 来 
创建 徐 。 换 名 话说 ， 每 个 标签 被 视 为 物品 频率 的 向 量 ， 然 后 这 些 向 量 被 用 于 创建 m 个 艇 。 
聚 类 为 用 户 兴 趣 和 物品 之 间 的 关联 性 的 度量 和 集成 提供 了 中 间 表 示 形 式 。 

令 第 ;个 簇 中 的 第 i 个 用 户 的 兴趣 记 为 ucW(i，s)， 第 j 个 物品 (资源) 和 第 s TRY 
关联 度 被 记 为 rcW(j，s)。ucW(i，s) 被 定义 为 用 户 i 所 使 用 的 标签 在 第 :个 簇 所 占 的 比 
例 ，rceW(;}，s) 被 定义 为 物品 j 的 标签 在 第 s MEP AWB. BAH i Mins 的 总 
的 兴趣 1(i， 门 的 计算 如 下 : 


IG, j) = DucW(li, s) X reW(j, s) (11-15) 


s=1 
图 11-7 RR T a EE E h E > Re + Pet th AE PE E 
AY LAB FA TED in EHA. AERA E A Fh Bt S AL) — Wy its EIT A ET — 
健壮 性 的 总 结 ， 可 以 被 用 于 高 品质 的 兴趣 计算 。 

此 外 ，[542] 的 工作 根据 用 户 的 标签 查询 向 用 户 提供 个 性 化 的 物品 推荐 。 例 如 ， 如 果 
Mary 搜索 “动画 ”"， 她 得 到 的 推荐 电影 可 能 和 Bob 搜索 “动画 ”得 到 的 推荐 电影 并 不 完全 
相同 。 对 于 给 定 的 查询 标签 9， 它 和 物品 j 的 相似 度 SG，9) 的 定义 如 下 ， 它 是 根据 物品 7 
被 标记 为 标签 q 的 频率 fy 同 物品 ;7 被 标记 为 其 他 标签 的 频率 相 比较 来 定义 的 : 


二 三 的 (11-16) 

V ish 
对 于 一 个 特定 用 户 i 的 搜索 ， 虽 然 SO，9) 的 值 也 可 直接 被 用 于 物品 排名 ， 但 我 们 需要 利 
用 用 户 兴趣 IG, DIRITE. IG, 7) 的 值 使 用 公式 〈11- 15) 计算 。 因 此 ， 查 询 
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ARRE SG, q) XI(i, DWIE SG, gq) 排 序 。 值 得 注意 的 是 ， 对 标签 查询 的 物品 推荐 不 一 
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OQOOOOOOOOE 


1(5,6)=ucW(5,1)*xrcW(6,1)+ucW(5,2)xrcW(6,2)+ 
+ucW(5,3)xreW(6,3)+ucW(5,4)xrcW(6,4) 


OQOOOOOOOOOOE 


图 11-7 用 簇 作为 桥梁 来 计算 用 户 对 物品 的 兴趣 。 这 个 例子 阐述 了 如 何 计算 用 户 5 对 物品 6 
的 兴趣 。 这 样 的 计算 方法 可 以 应 用 在 任何 用 户 一 物品 对 上 


定 需要 对 特定 用 户 进行 个 性 化 ， 我 们 可 以 简单 地 使 用 SG，9) 来 排序 物品 。 进 一 步 地 ， 对 
物品 推荐 标签 也 同样 不 需要 进行 个 性 化 。 可 以 简单 使 用 物品 的 标签 特征 为 用 户 做 推荐 。 在 
这 种 情况 下 ， 被 推荐 的 标签 取决 于 被 查询 的 物品 ， 而 不 会 依赖 于 进行 查询 的 用 户 。 事 实 
上 ， 最 早 的 关于 标签 推荐 的 研究 工作 就 使 用 标签 和 物品 同时 出 现 的 统计 信息 来 做 推荐 。 因 
此 ， 其 结果 也 并 不 依赖 提出 查询 的 用 户 。 

类 似 地 ，[L316] 提出 的 一 种 以 内 容 为 中 心 的 使 用 潜在 狄 利 克 雷 分 布 模型 (LDA) 的 推 
荐 方法 。 该 方法 把 每 个 物品 看 作 一 个 包含 标签 〈 或 “单词 ?》 频率 的 “文档 ”。 和 传统 的 文 
档 主题 生成 模型 类 似 ， E E REAO EN 的 关联 : 


P(Tag = q | Item = j) = 3) PTa = = q |- Topic = s) e P(Topic = s | Item = j) (11-17) 


在 这 里 ， K 表示 主题 的 数量 ， 这 是 一 项 由 用 户 定 义 的 参数 。 注 意 到 公式 (11- 17) 的 左边 
提供 了 一 个 以 排序 为 目的 的 推荐 概率 ， 而 右边 的 量 可 以 通过 LDA 方法 中 的 参数 学 习 来 进 
行 评 估 。 没 有 必要 使 用 LDA 做 主题 建 模 。 例 如 ， 可 以 用 更 简单 的 概率 隐语 义 分 析 CPL- 
SA) 模型 来 蔡 换 LDA。 注意 ， 我 们 也 可 以 把 用 户 所 使 用 的 标签 看 作 “ 文 档 ”， 利 用 主题 建 
模 方 法 对 这 些 用 户 按照 主题 进行 聚 类 ， 从 而 实现 推荐 的 个 性 化 。 在 确定 了 主题 以 后 ， 我 们 
可 以 按 如 下 方法 计算 不 同 标签 和 每 个 用 户 的 关联 度 : 


K 
P(Tag = q | User = i) = > P(Tag = q | Topice = s) » P(Topic=s| User = i) (11-18) 
s=1 


注意 ， 公 式 11-18) 相 较 于 公式 11-17) 使 用 了 一 个 不 同 的 主题 集合 ， 前 者 对 用 户 育 
类 ， 而 后 者 对 物品 聚 类 。 给 定 用 户 i 的 个 性 化 内 容 ， 公 式 (11- 17) 和 公式 (11- 18) HR 
性 组 合 可 以 被 用 来 确定 标签 g 和 物品 j 的 相关 性 。 这 一 线性 组 合 的 权重 确定 了 用 户 特异 性 
和 物品 特异 性 之 间 的 权衡 。 

还 有 一 些 其 他 的 方法 ， 通 过 在 主题 建 模 过 程 中 利用 贝 叶 斯 的 思想 来 组 合用 户 特异 性 和 物 
品 特异 性 3] 。 特 别 地 ， 我 们 可 以 直接 计算 个 性 化 的 和 特定 物品 的 推荐 概率 P(Tag=gq | 
User=i, Item=j). 。 使 用 朴素 贝 叶 斯 规则 ， 可 以 将 此 概率 简化 为 如 下 : 
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P(Tag = q | User = i, Item = j} 


_ P(User = 7, Item = j | Tag = go> P(Tag = g) 
P(User = i, Item = 7) 


aw P User =i| Tag =q) + P(ltem = 7 | Tag = go)» P(Tag = qg) 
P(User = i, Item = j) 
ocP(User = i | Tag = q) + P(Item = j | Tag = q) « P(Tag = q) (11-21) 
注意 到 ， 以 上 我 们 忽略 了 分 母 的 项 : P(User 二 i，Item 二 ;7)。 这 是 因为 我 们 希望 在 特定 用 
户 和 物品 的 情况 下 ， 按 照 标签 推荐 概率 来 排列 不 同 的 标签 。 因 此 ， 这 一 常数 项 可 以 在 排序 
过 程 中 被 忽略 。 
现在 ， 上 述 公 式 右 手边 的 PCUser=i| Tag=q) Al PUtem=j|Tag=q) E WAKE AP HE 
荐 概率 和 物品 推荐 概率 ， 运 用 贝 叶 斯 规则 表示 为 : 
P(User = i) P(Tag = g | User = i) 





(11-19) 


(11-20) 











PC User = i | Tag = g} = PTa = a) (11-22) 
PUtem = j | Tag =q) = ea eee | Rem = 72 (11-23) 


因此 ， 将 这 些 项 代 和 人 公式 (11- 21) 中 , 我 们 可 获得 如 下 : 
P(Tag = q | User = i) + P(Tag = q | Item = j) 


P(Tag = q | User = i, Item = j) ec P( Tag = q) 





(11-24) 
类 似 于 任何 贝 叶 斯 分 类 器 ， 公 式 右边 的 项 可 以 很 容易 地 以 数据 驱动 的 方式 被 估计 。 例 如 ， 
PC Tag 二 9q) 的 值 可 以 被 估计 为 标签 立方 体 中 第 g 个 标签 对 应 的 非 空 项 所 占 的 比例 。P(Tag =q] 
User 二 让 的 值 可 以 被 估计 为 标签 立方 体 中 用 户 i 对 应 切片 上 第 gq 个 标签 所 对 应 的 非 空 项 所 
占 的 比例 。P(Tag 二 giltem 二 站 的 值 可 以 被 估计 为 标签 立方 体 中 物品 7 对 应 切片 上 第 g 个 
标签 所 对 应 的 非 空 项 所 占 的 比例 。 拉 普 拉 斯 算 符 也 经 常用 于 避免 过 度 拟 合 。 
公式 (11-24) 中 的 概率 被 用 于 在 特定 的 用 户 一 物品 组 合 上 对 标签 排名 。1[315」 也 讨 
论 了 一 个 更 简单 的 基于 频率 的 推荐 模型 。 


11.4.5 使 用 评分 矩阵 的 社会 性 标签 推荐 


当 标 签 作为 物品 评分 的 附加 信息 被 加 入 系统 时 ， 它 对 提高 推荐 的 质量 具有 巨大 的 湾 
力 。 例 如 ， 设 想 一 个 情节 ，Mary 已 观看 了 《Shrek》 和 《Lion King》 这 样 的 许多 被 评分 
网 站 〈 例 如 IMDb) 标记 为 “动画 ”的 电影 。 然 而 ，Mary 也 许 还 未 在 标签 立方 体 中 标记 
任何 这 样 的 电影 ， 这 些 喜 好 是 通过 评分 和 矩阵 得 到 的 。 

现在 设想 一 个 情景 ， 有 一 部 电影 ， 例 如 《Despicable Me》， 也 被 标记 为 “动画 ”,， 但 
Mary 并 没有 看 过 这 部 电影 。 在 这 样 的 情况 下 ， 可 以 合理 地 猜测 Mary 可 能 会 对 《Despica- 
ble Me》 感 兴趣 。 即 使 评分 矩阵 也 提供 了 同样 的 预测 ， 但 是 当 加 入 标签 信息 的 时 候 其 预测 
的 错误 率 降 低 了 。 这 是 因为 标签 提供 了 独立 于 评分 数据 的 信息 。 尤 其 是 对 于 新 电影 来 说 ， 
往往 没有 足够 的 评分 或 者 标签 来 对 用 户 的 喜好 做 预测 。 在 这 样 的 情况 下 ， 评 分 和 标签 可 以 
互补 ， 使 其 做 出 更 有 健壮 性 的 判定 。 在 绝 大 多 数 的 情况 下 ， 标 签 系 统 在 评分 矩阵 中 包含 了 
隐 式 评分 (例如 用 户 是 否 浏览 过 一 个 物品 )。 这 是 因为 像 “last. fm” 这 样 的 网 站 能 够 自动 
地 将 用 户 对 物品 的 浏览 记录 保存 下 来 。 注 意 ， 隐 式 评分 是 一 项 独立 的 信息 来 源 ， 因 为 一 个 
用 户 可 能 浏览 过 一 个 物品 ， 但 却 没 有 对 它 进行 标记 。 在 这 一 节 中 ， 我 们 将 学 习 隐 式 和 显 式 
评分 这 两 种 情况 。 
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一 种 最 直接 的 方法 是 使 用 混合 式 推荐 系统 将 基于 标签 的 预测 和 基于 评分 的 预测 进行 结 
合 。 例 如 ， 在 11. 4.4 节 中 讨论 的 任何 方法 ， 可 以 被 用 于 基于 标签 做 预测 。 此 外 ， 任 何 传 
统 的 协同 过 滤 算 法 可 以 进行 基于 评分 的 预测 。 对 两 类 评分 的 加 权 平 均 可 以 被 用 于 做 最 终 的 
预测 。 权 重 可 以 使 用 第 6 章 6. 3 节 混 合式 推荐 系统 中 讨论 的 方法 来 学 习 。 然 而 ， 这 样 的 方 
法 并 未 将 两 个 来 源 的 预测 密切 地 统一 起 来 。 将 不 同 来 源 的 数据 密切 统一 的 算法 可 能 会 获得 
更 好 的 结果 。 

11. 4.5.1 基于 近邻 的 方法 

[603] 中 的 方法 适用 于 隐 式 反馈 数据 集 ， 其 评分 矩阵 被 设 为 一 元 的 。 这 在 社会 性 标签 
系统 中 很 常见 。 例 如 ， 在 像 诸如 “last. fm” 的 网 站 中 ， 用 户 对 物品 的 访问 记录 是 可 获取 
的 ,但 显 式 的 评分 不 能 被 获取 。 此 论文 中 将 未 知 项 设 为 0。 因 此 ， 评 分 和 矩阵 R 被 看 作 一 个 
二 元 矩阵 而 非 一 元 矩阵 。 

通过 创造 附加 的 伪 用 户 和 伪 物 品 ，L603]」 利 用 mmXnXp 标签 立方 体 F 的 数据 对 m Xn 
的 评分 矩阵 R 进行 增 广 。 例 如 ， 可 以 在 基于 扩展 物品 集 的 评分 矩阵 上 使 用 基于 用 户 的 协同 
过 滤 。 为 了 创建 一 个 物品 维度 被 扩展 的 评分 矩阵 Ri ， 每 一 个 标签 被 看 作 是 一 个 伪 物 品 。 
此 外 ， 如 果 用 户 至 少 使 用 了 一 次 该 标签 〈 可 年 能 对 多 个 物品 而 言 )， 那 么 用 户 - 标 签 组 合 的 
值 被 设 为 1。 否则 ， 该 值 被 设 为 0。 注意, 一 共有 mxp 个 用户 -标签 组 合 。 通 过 将 标签 看 
作 新 的 伪 物 品 ， 可 以 将 mXp 个 组 合 添加 到 mx Xn 的 评分 矩阵 后 面 。 这 就 产生 了 一 个 大 小 
为 mX (n 十 p) 的 扩展 的 矩阵 Rl。 可 以 利用 这 个 扩展 矩阵 来 计算 用 户 i 和 其 他 用 户 的 相似 
度 。 因 为 附加 列 上 包含 了 用 户 一 标签 的 活动 信息 ， 所 以 用 于 相似 度 计 算 的 信息 得 以 丰富 。 
用 户 i 对 物品 的 评分 通过 i 的 相似 用 户 群 对 应 1 的 个 数 来 计算 。 预 测评 分 ?被 归 一 化 ， 
使 得 它们 表示 访问 (或 购买 ) 不 同 物品 的 概率 。 注 意 ， 在 隐 式 反馈 中 评分 表示 了 活动 的 
频率 。 

可 以 用 类 似 的 方法 来 扩展 基于 物品 的 方法 。 在 这 个 情况 下 ， 一 个 pXn 的 对 应 “标签 一 
品 ” 组 合 的 矩阵 被 创造 出 来 。 如 果 物 品 被 某 标签 标记 过 至 少 一 次 ， 那 么 此 矩阵 中 的 值 为 
1。 现 在 标签 被 看 作 是 伪 用 户 ， 因 此 在 原始 评分 矩阵 RR 上 需要 附加 行 。 这 导致 了 一 个 大 小 

为 (m 十 p) Xn 的 扩展 矩阵 R，。 这 一 扩展 和 矩阵 被 用 于 执行 基于 物品 的 协同 过 滤 的 相似 度 计 
算 。 然 后 对 于 一 个 给 定 的 用 户 i， 预 测评 分 六" 将 被 归 一 化 ， 使 它们 在 所 有 j 上 求 和 为 1。 
因此 ， 在 这 个 情况 中 ， 预 测 的 评分 也 表示 了 访问 或 购买 物品 的 概率 。 

在 完成 基于 用 户 的 和 基于 物品 的 协同 过 滤 后 ， 通 过 一 个 参数 +E (0，1) 将 两 种 评分 预 
测 进行 如 下 融合 : 

Py = > ri (11-25) 
A 的 最 优 值 可 使 用 交叉 验证 法 来 选择 ， [603] 的 结果 展示 了 加 入 标签 信息 后 对 传统 协同 过 
滤 的 性 能 的 提升 。 为 了 实现 标签 信息 的 垦 和 信 ， 将 基于 用 户 的 和 基于 物品 的 方法 进行 融合 是 
必 不 可 少 的 。 

11.4.5.2 线性 回归 

[535] 在 推荐 过 程 中 使 用 了 线性 回归 的 方法 来 嵌入 标签 信息 。 相 比 用 户 评分 ， 标 签 在 
识别 用 户 喜好 方面 的 精确 性 较 差 ， 因 此 选取 对 于 推荐 过 程 中 唯一 有 价值 的 标签 是 十 分 重要 
的 。 为 了 达到 这 个 目标 ， 可 以 利用 11. 4. 3 节 所 描述 的 方法 。[535] 中 采用 的 基本 方法 是 
通过 融合 用 户 评分 的 信息 来 补充 用 户 对 不 同 物品 的 标签 的 喜好 信息 。 例 如 ， 如 果 一 个 用 户 
已 对 《Lion King》 和 《Shrek》 有 了 高 评分 ， 且 两 部 电影 都 被 标记 为 “动画 *"， 那 么 可 以 
推测 出 这 个 用 户 很 有 可 能 对 于 这 一 标签 的 电影 感 兴趣 。 该 方法 的 第 一 步 是 确定 物品 和 标签 
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之 间 的 相关 性 权重 。 例 如 ， 在 表 11-1 中 任何 “物品 = 标签 ”的 特定 概率 可 以 被 当 作 相关 性 
权重 。 设 gx 是 物品 7j 对 于 标签 & 的 相关 性 ， 第 二 步 是 用 ; 型 函数 将 其 转化 成 物品 对 标签 的 
偏好 值 : 
1 
u Te dr) 

之 后 ， 结 合 “ 标 签 - 物 品 ” 关 联 性 和 用 户 对 于 物品 的 兴趣 ， 来 计算 用 户 守 对 于 标签 上 的 偏 
好 uj。 可 以 使 用 评分 矩阵 R==Lri ] 来 推导 出 用 户 对 物品 的 偏好 。 用 户 i 对 标签 & 的 偏好 
zx 可 以 按 如 下 推导 : i 


i, = lee (11-26) 


s=1 


以 上 公式 的 分 子 和 分 母 中 忽略 了 没有 被 用 户 i 评分 的 物品 。 当 评分 不 可 用 时 ，wi 的 值 也 可 
以 通过 用 户 的 访问 、 点 击 、 购 买 、 给 物品 做 标签 的 频率 的 相关 信息 间接 推导 出 。 例 如 ， 在 
AX (11-26) F r 的 值 可 以 为 用 户 对 物品 j 标记 的 次 数 (并 不 一 定 是 标签 k). 

一 个 预测 物品 j 对 用 户 i 的 偏好 值 p; 的 简单 方法 是 : 确定 物品 i 上 的 所 有 标签 的 集合 
T;， 并 对 T; 中 所 有 标签 r Ru, 的 平均 值 : 

Diver, us © Usp, 
rene 
注意 ，p; 的 值 可 能 不 在 评分 的 取 值 范围 中 。 尽 管 如 此 ， 仍 然 可 以 利用 pi 对 物品 进行 排序 。 

一 个 预测 评分 更 加 有 效 的 方法 是 使 用 线性 回归 。 其 基本 思路 是 假设 用 户 i 对 物品 j 的 
评分 ri 是 基于 一 个 线性 关系 ， 当 固定 ;j， 把 i 当 作 变 量 时 ， 这 个 假设 是 成 立 的 。 

ry = D us wj Wirry 是 观测 到 的 (11-28) 
réT; 

He (RA) 系数 w, KME r 对 于 物品 7 的 重要 度 ， 且 它 能 通过 对 物品 7 的 所 有 已 知 
评分 用 回归 方法 学 习 得 到 。 它 与 公式 1-27) 中 最 主要 的 不 同 点 在 于 ， 对 标签 > 不 再 使 
用 一 个 启发 式 的 权重 值 wr (对 物品 力 ， 而 是 在 评分 矩阵 上 使 用 线性 回归 学 习 得 到 权重 值 
wir 。 该 方法 因 其 更 好 的 监督 性 而 更 为 优胜 。 因 为 回归 训练 过 程 中 使 用 了 所 有 用 户 对 物品 7 
的 评分 ， 所 以 这 一 方法 运用 了 不 同 用 户 评分 的 协作 力量 。 此 外 ， 相 比 传 统 的 协同 过 滤 算 
法 ， 这 一 方法 具有 更 好 的 结果 ， 因 为 它 在 推荐 过 程 中 使 用 了 标签 这 一 辅助 信息 。 在 一 个 混 
合 系统 中 ， 如 果 将 这 一 方法 和 一 个 简单 的 矩阵 分 解法 相 结合 则 会 产生 更 好 的 结果 [535] 。 研 
究 结 果 表 明 在 训练 过 程 中 回归 支持 向 量 机 方法 的 结果 最 佳 ， 而 最 小 二 乘法 回归 可 作为 一 个 
简单 的 替代 。 线 性 回归 方法 在 第 4 章 4.4. 5 节 中 讨论 。 

11.4.5.3 矩阵 分 解 

一 种 矩阵 分 解 的 方法 被 称 为 TagiCoFits73] ， 通 过 使 用 第 3 章 中 的 方法 的 变形 可 以 将 评 
DERE R 近似 分 解 为 两 个 和 矩阵， 一 个 mXg 的 矩阵 U 和 一 个 nXg 的 矩阵 Y。 此 条 件 可 以 被 
表达 为 如 下 : 





pi = (11-27) 


R+UV', YR 中 已 观测 的 项 (11- 29) 

XIR 中 的 已 观测 项 ， 可 以 通过 对 Frobenius 范 数 g(U. V, R)= || R 一 UVT ||? 近似 最 小 化 来 
实现 该 条 件 。 

另外 ， 一 种 相似 性 约束 被 应 用 于 用 户 因 子 矩 阵 品 ,使 得 有 相似 标记 行为 的 用 户 有 着 相 

似 的 因子 。 令 SKAP i Mj 之 间 的 相似 性 ， 并 令 二 为 UU 的 第 i 行 。 为 了 确保 有 着 相似 标 
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记 行 为 的 用 户 有 着 相似 的 因子 ， 我 们 想 要 将 下 列 相似 性 目标 函数 f(U) 最 小 化 : 


f(D = >) > S; | g- ll? (11-30) 


int ful 

因为 有 两 个 不 同 的 目标 函数 eU, V, AM f(U)， 我 们 引入 平衡 参数 8， 用 于 将 gU, V, 
及 ) 十 BFCU) 最 小 化 。 此 外 ， 我 们 在 矩阵 分 解 〈 对 Frobenius 范 数 求 和 ) 中 有 标准 正则 项 ， 
HEMT ACIU IH IVI. 4 为 正则 化 参数 。 将 这 些 不 同 的 项 求 和 ， 我 们 将 获得 以 下 
目标 函数 : 


Minimize J = || R— UVT |? +8- 3133s, || a; — a |? +ad U I+IV ID 
Ua aaa a av 
RR 中 的 已 观测 到 的 项 ipa o 正则 化 
标签 相似 性 目标 


在 所 有 的 矩阵 分 解法 中 ， 梯 度 下 降 法 被 用 于 求解 矩阵 U MV. BAA 的 值 可 以 用 交叉 验证 
法 来 计算 。 

值得 注意 的 是 ， 此 法 在 技术 上 与 11. 3. 8. 2 节 中 讨论 的 信任 推荐 系统 中 的 社会 正则 法 [82] 
相似 。 在 其 方法 中 ， 一 个 信任 和 矩阵 了 被 用 于 在 目标 函数 中 增加 相似 项 ij, >0ty || wae |? « 


在 这 里 ,标签 相似 性 矩阵 被 用 于 增加 项 > > | m i’. Ram. EAP i Mj 


i=lj= 


之 间 的 信任 /趋同 性 被 用 户 i 和 用 户 j 之 间 的 标签 相似 性 Si 所 替换 。 因 此 ， 相 同 技术 模型 
的 较 小 变化 可 以 被 用 于 解决 不 同 的 社交 推荐 场景 。 此 外 ， 与 其 要 求 基 于 标记 行为 的 用 户 因 
子 更 加 相似 ， 我 们 也 可 以 要 求 基于 标记 行为 的 物品 因子 更 加 相似 〈 见 习题 5) 。 

计算 标签 相似 性 

上 述 方法 需要 计算 用 户 i 和 用 户 ; 之 间 的 标签 相似 性 Sj 。 首 先 ， 由 标签 立方 体 F 生 成 
tf-idf 矩阵 ， 其 中 用 户 使 用 一 个 特定 标签 的 次 数 被 计算 出 来 。 换 句 话 说， 所 有 特定 的 “用 
户 一 标签 ”组 合 的 1 的 个 数 被 求 和 。 因 此 ， 对 每 个 用 户 会 生成 一 个 频率 向 量 。 然 后 ， 利 用 
信息 检索 中 的 标准 tid 归 一 化 方法 将 该 频率 归 一 化 。[673] 中 提出 了 两 种 计算 相似 性 的 
不 同方 法 : 

1) Pearson 相似 性 : Pearson 相关 系数 oj 是 根据 用 户 i 和 用 户 7 使 用 的 所 有 标签 计算 
得 出 。 两 者 都 未 使 用 的 标签 忽略 不 计 。Sigmoid 函数 被 用 于 将 相关 系数 转化 为 一 个 在 (0， 
1) 的 非 负 相似 性 Sy: 

1 
S ae (11-31) 

2) 余弦 相似 性 : 频率 向 量 之 间 的 标准 余弦 相似 性 被 用 作 相似 度 值 。 参 考 第 4 章 对 于 
相似 度 函 数 的 讨论 。 

3) 欧 几 里 得 相似 性 : 欧 几 里 得 距离 di 在 相似 性 向 量 之 间 计 算 ， 然后 用 一 个 高 斯 函数 
将 欧 几 里 得 距离 转化 为 一 个 取 值 在 (0，1) 的 相似 度 值 : 


Sy = exp(— 44) (11-32) 


ERE, o 是 一 个 用 户 控制 的 参数 ， 可 以 通过 交叉 验证 来 选择 该 参数 。 在 1673] WAR 
H, Pearson 相似 性 表现 最 优 ， 欧 几 里 得 相似 性 表现 最 差 。 

11.4.5.4 基于 内 容 的 方法 

社会 性 标记 方法 对 使 用 基于 内 容 的 方法 提供 了 一 个 直截了当 的 途径 。 对 于 一 部 电影 
的 标签 的 频率 向 量 可 以 被 看 作 是 对 该 电影 的 描述 。 用 户 对 电影 做 出 的 评分 可 以 被 看 作 是 
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用 标签 定义 的 特征 空间 上 的 训练 样本 。 评 分 被 看 作 标 签 类 。 通 过 该 训练 样本 可 以 构建 特 
定 用 户 的 训练 模型 。 该 模型 被 用 于 预测 用 户 对 其 他 电影 的 评分 。 使 用 分 类 还 是 回归 模型 
取决 于 评分 是 一 元 的 还 是 基于 区 间 的 。 这 样 基于 内 容 的 模型 也 可 以 与 任何 上 述 的 协同 系 
统 相 结合 。 

[584] 提出 了 一 种 在 IMDb 数据 集 上 的 简单 的 基于 内 容 的 推荐 模型 。 它 使 用 标签 云 的 
概念 来 表示 基于 标签 的 电影 描述 。 各 个 关键 词根 据 其 相关 性 加 权 ， 然 后 和 用 户 评 分 结合 ， 
以 做 出 最 终 的 预测 。 使 用 基于 内 容 的 方法 的 一 个 挑战 是 ， 大 量 同 义 性 词 导 致 了 标签 的 噪声 
RK. [178] 使 用 语言 学 方法 消 歧 ， 然 后 与 朴素 贝 叶 斯 分 类 法 相 结合 。 此 外 ， 利 用 第 4 章 
中 所 讨论 的 特征 选择 法 去 提高 表达 质量 也 是 十 分 有 益 的 。 


11.5 ”小结 


在 推荐 系统 中 ， 社 交 信 息 可 以 以 各 种 方式 使 用 。 利 用 标准 的 多 维 模型 可 以 在 推荐 过 程 
中 磐 入 社交 信息 。 以 信任 为 中 心 的 方法 可 以 被 用 来 创建 健壮 的 推荐 系统 。 无 监督 方法 使 用 
信任 传播 和 聚集 将 信任 信息 蔡 入 推荐 系统 中 。 为 了 得 到 更 好 的 性 能 ， 有 监督 的 方法 使 用 链 
接 预测 和 和 拖 阵 分 解 。 有 监督 学 习 方 法 被 公认 为 是 当前 最 先进 的 方法 。 将 信任 知识 能 人 推荐 
中 能 使 得 系统 有 效 抵 抗 攻击 ， 并 避免 冷 启动 问题 。 

近年 来 ， 社 会 性 标签 系统 使 得 用 户 能 够 以 一 种 自由 的 描述 方法 对 网 络 上 的 资源 进行 协 
同 标 记 。 这 些 描 述 也 被 称 为 大 众 分 类 法 ， 它 被 表示 为 标签 立方 体 。 这 些 用 户 的 描述 十 分 有 
用 ， 因 为 它们 包含 了 有 关 用 户 兴 趣 的 丰富 的 知识 。 标 签 立 方 体 既 可 以 独立 地 被 使 用 ， 也 可 
以 与 评分 和 矩阵 相 结合 以 提供 推荐 。 前 一 类 方法 和 推荐 系统 中 的 多 维 模型 有 相似 之 处 。 后 一 
类 方法 可 以 是 基于 协作 或 者 是 基于 内 容 的 方法 。 目 前 已 有 各 种 不 同 的 技术 被 提出 ， 例 如 近 
邻 法 、 线 性 回归 和 和 矩阵 分 解 。 


11.6 相关 工作 


基于 信任 的 推荐 系统 的 概述 可 在 (221, 588, 616, 646] 中 找到 。Jennifer Golbeck!222] 
的 博士 论文 提供 了 该 领域 的 几 个 开创 性 的 算法 。[224，681] 讨论 了 社交 网 络 中 趋同 性 和 
信任 的 概念 之 间 的 关联 。 在 这 些 情 况 下 ， 信 任 关系 可 以 从 基于 网 络 的 社交 网 络 中 推导 出 
HK. [187] 的 工作 展示 了 如 何 直接 从 评分 数据 087] 推 导 信任 关系 ， 但 对 于 该 论文 中 的 信任 
的 概念 是 否 被 普遍 接受 还 有 争议 。 一 个 最 早 的 使 用 基于 信任 的 方法 是 在 电影 推荐 中 被 提 
出 [5223'225] 。 该 网 站 “Filmtrust” 系 统 [2253 介 绍 了 如 何 使 用 信任 度 对 电影 做 出 推荐 。 [592] 
的 工作 研究 了 利用 交互 数据 对 不 信任 关系 的 预测 。 还 有 其 他 一 些 收集 信任 信息 的 网 站 ， 包 
括 “Epinions”[705] 、Moleskiing[4650 和 Slashdot[706] 。 

信任 度 在 信任 网 络 的 推荐 中 起 到 了 关键 作用 [344's80] 。[680] 的 工作 提供 了 相关 的 信任 
度 的 一 个 很 好 的 概述 。 虽 然 大 部 分 的 信任 网 络 的 工作 重点 是 只 相信 GE) 的 关系 ， 最 近 的 
一 些 工作 还 讨论 了 使 用 信任 与 不 信任 两 种 关系 [241'287,590,593,614,680] 。 此 外 ， 大 多 数 这 些 方 
法 只 讨论 了 GE) 信任 传播 方法 ，[287] 的 工作 除外 ， 它 提出 了 不 信任 聚合 方法 。[590， 
591] 研究 了 推荐 和 链接 预测 问题 下 信任 与 不 信任 概念 之 间 的 相互 作用 。[L241，509] 讨论 
了 利用 乘法 进行 信任 传播 的 方法 。 各 种 其 他 信任 传播 方法 包括 沿路 径 C4o] 使 用 训 减 因子 ， 
使 用 最 短路 径 [222] ， 到 一 个 固定 的 传播 地 平 线 的 距离 [to3] ， 扩 频 因子 [682,683] ， 规 则 0345,597] 
和 语义 距离 5 。[227] 的 实验 结果 表明 ， 用 最 短 距离 推导 的 传播 信任 值 比 使 用 所 有 路 径 计 
算 的 传播 信任 值 更 加 精确 。 这 种 观察 形成 了 TidalTrust 算法 的 基础 。Appleseed 算法 5682] 
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采用 了 扩散 激活 模型 ， 用 较 复杂 的 方法 来 前 弱 较 短路 径 的 影响 。 信 任 被 建 模 为 能 量 ， 被 注 
入 源 结 点 中 。 根 据 边 的 信任 值 大 小 ， 将 能 量 分 给 后 续 结 点 。 最 后 到 达 汇 点 的 能 量 则 是 信任 总 
量 。 显 然 ， 如 果 汇 点 和 源 点 之 间 的 短路 径 越 多 ， 那 么 到 达 汇 点 的 能 量 就 越 多 。EigenTrust 算 
法 5 使 用 信任 网 络 的 主 特征 向 量 来 计算 源 点 到 其 他 所 有 结 点 的 信任 值 。 然 而 ， 该 方法 仅仅 
提供 了 信任 的 排名 ， 而 不 是 真实 的 信任 值 。[594] 讨论 了 趋同 性 对 信任 传播 的 影响 ， 其 中 引 
入 了 和 矩阵 分 解 模型 。 

信任 计算 的 第 二 个 重要 方面 是 聚集 。 社 交 网 络 中 的 聚集 规则 在 L1，221，222，287， 
449, 615] 中 讨论 。[405] 讨论 了 利用 路 径 的 长 度 或 友谊 的 亲密 度 对 聚集 的 不 同 组 件 进行 
加 权 的 方法 。 

传播 和 聚集 的 结合 使 得 信任 测度 [221.349 的 建立 。[344] 中 所 述 的 Advogato 是 经 典 的 
信任 度量 ， 它 被 广泛 应 用 于 各 种 应 用 中 〈 不 仅仅 是 推荐 系统 )。 本 章 讨论 的 信任 度 是 专门 
针对 推荐 算法 。 对 TidalTrust 算法 的 最 佳 描述 见 [222]. [406] 中 描述 了 MoleTrust 算 
法 。 (403, 404] 说 明了 MoleTrust 算法 对 冷 启 动 问题 的 有 效 性 。 [269] 提出 了 Trust- 
Walker FH, [48] 为 基于 信任 的 推荐 提出 了 一 个 公理 化 方法 。 [157，324，325，580， 
581] 研究 了 在 有 符号 网 络 中 和 无 符号 网 络 中 利用 链接 预测 进行 推荐 。[157」 的 工作 是 显 
著 的 ， 因 为 它 说 明了 链接 预测 中 的 和 矩阵 分 解 方法 和 协同 过 滤 的 矩阵 分 解 方法 之 间 的 关联 。 
[381] 提出 了 SoRec 算法 ，[594] 提出 了 LOCALBAL 算法 。[383] 探讨 了 和 矩阵 分 解 方法 
中 对 信任 关系 和 不 信任 的 关系 的 使 用 。[270] 中 讨论 了 SocialMF 算法 ， 而 基于 相似 性 的 
正则 化 方法 在 [382] 中 被 提出 。[384] 提出 了 使 用 矩阵 分 解 的 集成 方法 ， 被 称 为 社交 信 
任 集成 (Social Trust Ensemble, STE). 

若干 工作 5222,406'617 研 究 了 在 有 争议 的 物品 和 用 户 上 推荐 系统 的 性 能 。 人 们 普遍 认为 
在 这 样 的 情况 下 ， 基 于 信任 的 方法 是 非常 有 用 的 。 [403，404] 中 讨论 了 这 些 系 统 在 冷 启 
动 问 题 中 的 有 效 性 。 信 任 感知 系统 的 抗 攻击 性 在 [344] 中 有 讨论 。 

社会 性 标记 技术 的 一 般 性 综述 可 参考 [237]。 标 签 推荐 系统 的 综述 请 参考 [671], 
但 综述 中 大 部 分 的 工作 没有 在 推荐 过 程 中 使 用 评分 矩阵 。 最 后 ， 推 荐 系统 手册 包含 了 社 
会 标记 推荐 系统 的 概述 [4 。 对 标签 推荐 的 最 早 的 研究 工作 发 表 在 【553]， 该 方法 中 使 
用 了 共 现 、 投 票 和 求 和 这 些 简单 的 方法 做 推荐 。 基 于 内 容 推荐 的 分 层 聚 类 方法 在 [542] 
中 提出 。 概 率 隐 语义 分 析 模 型 在 [316] 中 提出 。 一 些 工 作 035'173'584] 主要 集中 在 基于 内 
容 的 系统 。 

标签 推荐 中 基于 张 量 的 方法 可 参考 [497，498，582，583]。 在 这 些 情 况 下 分 解 机 的 
概念 非常 普及 [43,486 。PITF 是 一 种 特别 值得 注意 的 配对 方法 I 。 [487] 提出 了 根据 标 
签 信 息 利 用 潜在 因子 模型 来 挖掘 算法 。 虽 然 这 项 工作 没有 特别 针对 推荐 系统 ， 但 潜在 因子 
模型 可 以 在 包括 推荐 系统 的 几乎 任何 应 用 中 使 用 。 对 于 标签 推荐 算法 的 机 器 学 习 方法 在 
[250, 555, 556] 中 被 讨论 。 在 这 些 工作 中 ，[L556] 所 提出 的 技术 专门 针对 实时 标签 推 
荐 。 标 签 聚 类 方法 [T0215,54 引 常常 被 用 来 减轻 在 协同 过 滤 应 用 的 矩阵 稀 玖 问题 。 社 会 性 标签 
方法 的 加 权 混 合 方法 在 [216] 中 进行 了 讨论 。 

[264, 277] 提供 了 对 于 标签 推荐 方法 的 各 种 评 佑 技术。 评价 标签 质量 的 方法 在 (536 | 
中 进行 了 讨论 。 在 今天 ， 只 有 一 小 部 分 的 系统 将 评分 矩阵 和 社会 性 标签 相 结 合 5585'603'673] 。 
[179, 584] 讨论 了 将 评分 数据 和 标签 数据 相 结合 的 基于 内 容 的 方法 。 对 于 特定 的 数据 ， 
如 音乐 ， 可 以 从 音乐 文件 中 收集 到 一 些 有 价值 的 见解 被 用 于 推荐 过 程 80 。 一 个 解决 社会 
性 标签 的 冷 启动 问题 在 [672] 中 讨论 。 
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11.7 习题 


L 使 用 在 “用 户 一 标签 ”矩阵 和 “物品 一 标签 ” 抢 阵 上 的 结果 的 线性 组 合 ， 运 用 基于 近邻 的 方法 ， 完 成 
对 于 一 个 特定 物品 上 的 对 某 用 户 的 标签 推荐 。 

2. 讨论 用 于 链接 预测 的 Katz 度量 和 信任 传播 及 聚集 方法 的 关系 。 

3. 实现 11. 3. 8 节 中 的 梯度 下 降 法 。 

4. 11. 4. 5.3 节 中 的 方法 ， 基 于 用 户 一 标签 相似 性 ， 促 使 用 户 因子 之 间 更 加 相似 。 
(a) 设计 一 个 方法 ， 基 于 物品 一 标签 相似 性 ， 促 使 物品 因子 之 间 更 加 相似 。 
Cb) 设计 一 个 方法 ， 基 于 用 户 和 物品 标签 的 相似 性 ， 促 使 用 户 和 物品 因子 之 间 更 加 相似 。 
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抵抗 攻击 的 推荐 系统 





真相 是 无 可 争议 的 。 恶 意 会 攻击 它 ， 思 昧 会 嘲笑 它 。 但 是 最 终 ， 它 仍 存在 。 
Winston Churchill 





12.1 引言 


推荐 系统 的 输入 信息 通常 由 开放 平台 提供 。 几 乎 所 有 人 都 可 以 在 诸如 Amazon. com 和 
Epinions. com 等 网 站 上 注册 和 提交 评论 。 与 其 他 一 些 数 据 挖掘 系统 类 似 ， 推 荐 系统 的 有 效 
性 几乎 仅仅 取决 于 可 用 信息 的 质量 。 遗 憾 的 是 ， 存 在 一 些 重要 的 动机 ， 使 得 平台 的 参与 者 
为 了 个 人 利益 或 者 恶意 原因 去 提交 不 正确 的 反馈 : 

。 物品 制造 商 或 者 书籍 的 作者 可 能 会 为 了 提高 销量 去 提交 虚假 (负面 的 ) 评论 。 这 样 

的 攻击 也 被 称 为 产品 推送 攻击 。 

© 物品 制造 商 的 竞争 对 手 可 能 会 提交 关于 物品 的 恶意 评论 。 这 样 的 攻击 也 被 称 为 核 

攻击 。 

同时 ， 也 可 能 有 人 设计 一 些 攻击 仅仅 是 为 了 制造 恶作剧 ， 破 坏 底层 系统 ， 尽 管 这 种 攻 
击 的 产生 动机 很 少 是 为 了 个 人 利益 。 本 章 只 研究 在 推荐 过 程 中 为 实现 特殊 目的 的 攻击 。 在 
推荐 系统 中 实施 攻击 的 人 也 被 称 作 对 手 (adversary)。 

通过 创建 来 自 许 多 不 同 的 用 户 的 一 组 虚假 评论 集合 ， 可 以 改变 推荐 系统 的 预测 结果 。 
这 样 的 用 户 在 一 个 攻击 进程 中 成 为 欺诈 者 。 因 此 ， 这 样 的 攻击 方式 被 称 为 欺诈 攻击 。 显 
然 ， 只 添加 单个 欺诈 者 用 户 或 者 评分 不 太 可 能 达到 预想 的 目的 。 在 很 多 情况 下 ， 对 手 将 会 
需要 创建 大 量 的 欺诈 者 用 户 (或 者 欺诈 者 画像 去 达成 预期 目的 。 对 于 本 章 而 言 ， 画 像 指 
的 是 由 欺诈 者 创造 出 的 大 量 假 用 户 的 虚假 评分 。 当 然 ， 所 注 和 人 的 画像 数量 可 能 取决 于 被 攻 
击 的 推荐 系统 的 特殊 算法 和 攻击 者 所 使 用 的 特殊 攻击 方式 。 使 用 小 数量 的 注入 画像 的 攻击 
方式 通常 被 称 为 有 效 攻击 ， 因 为 这 样 的 攻击 方式 经 常 难以 被 探测 到 。 另 一 方面 ， 如 果 一 次 
攻击 需要 注 人 大 量 的 画像 ， 那 么 这 样 的 攻击 方式 通常 被 称 为 非 有 效 攻击 ， 因 为 对 于 少量 物 
品 ， 很 多 推荐 系统 都 可 以 轻松 探测 到 突 发 的 大 量 注 入 评分 。 此 外 ， 攻 击 的 有 效 性 可 能 取决 
于 推荐 系统 正在 使 用 的 特殊 推荐 算法 ， 一 些 推荐 系统 算法 更 加 具有 健壮 性 ， 因 此 难以 被 攻 
击 。 并 且 ， 不 同 的 攻击 方式 对 于 不 同 的 推荐 算法 总 是 会 有 或 多 或 少 的 作用 。 

也 可 以 按照 实施 攻击 所 需要 的 知识 量 对 攻击 进行 分 类 。 一 些 攻击 对 于 评分 分 布 只 需要 
非常 少 的 知识 量 ， 这 样 的 攻击 方式 被 称 为 低 知 识 攻 击 。 另 一 方面 ， 一 些 攻击 对 于 评分 分 布 
需要 非常 大 的 数据 量 ， 那 么 这 样 的 攻击 方式 被 称 为 高 知识 攻击 。 一 个 一 般 性 的 规则 是 ， 需 
要 在 一 场 攻击 中 对 所 需 的 知识 量 和 攻击 的 有 效 性 进行 权衡 。 如 果 对 手 对 于 评分 分 布 拥有 更 
多 的 了 解 ， 他 当然 也 会 进行 更 加 有 效 的 攻击 。 

本 章 按照 以 下 结构 进行 组 织 。 在 12. 2 节 中 ， 我 们 讨论 所 需 知 识 量 和 攻击 的 有 效 性 之 
间 权 衡 的 性 质 。 我 们 也 会 讨论 在 推荐 系统 中 使 用 特定 算法 对 于 攻击 有 效 性 的 影响 。 在 12. 3 
节 我 们 讨论 攻击 的 不 同 种 类 。12. 4 节 我 们 讨论 推荐 系统 中 探测 攻击 时 可 能 出 现 的 问题 。 
12. 5 节 讨 论 推 荐 系统 健壮 性 的 设计 。12. 6 节 给 出 了 本 章 的 小 结 。 
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12.2 ”对 攻击 模型 中 的 权衡 的 理解 


为 了 实施 一 次 成 功 的 攻击 ， 攻 击 模型 需要 在 攻击 的 有 效 性 和 所 需 知 识 量 之 间 进 行 各 种 
权衡 。 而 且 ， 一 个 特定 攻击 的 有 效 性 也 取决 于 推荐 系统 所 使 用 的 特定 算法 。 为 了 理解 这 一 
点 ,我们 将 用 一 个 具体 的 例子 来 说 明 。 

考虑 表 12-1 中 的 小 示例 ， 这 里 我 们 给 出 了 5 个 物品 和 6 个 (真实 的 ) 用 户 。 评 分 从 1 
到 7， 其 中 1 表示 最 不 喜欢 ， 而 7 表示 最 喜欢 。 而 且 ， 一 个 攻击 者 注入 了 5 个 虚假 的 画像 ， 
我 们 使 用 标签 Fake-1、Fake-2、Fake-3、Fake-4 和 Fake-5 来 指 代 。 攻 击 者 的 目标 是 去 提 
高 物品 3 的 评分 。 因 此 ， 这 位 攻击 者 采用 了 更 加 原始 的 攻击 方式 ， 攻 击 者 插入 了 关于 物品 
3 的 单个 物品 虚假 画像 。 然 而 ， 这 样 的 攻击 方式 并 不 是 特别 有 效 。 这 样 的 方式 特别 容易 被 
探测 到 ， 因 为 每 个 注入 画像 中 的 单个 物品 拥有 相似 的 评分 。 并 且 ， 在 许多 推荐 系统 的 算法 
下 ， 这 样 的 评分 注入 不 可 能 产生 严重 的 影响 。 考 虑 一 个 非 个 性 化 的 推荐 系统 算法 ， 在 这 样 
的 推荐 系统 中 ， 评 分 最 高 的 物品 将 会 被 推荐 。 在 这 样 的 情况 下 ， 原 始 的 攻击 算法 会 增加 物 
品 3 的 预测 评分 ， 那 么 物品 3 将 有 更 大 的 可 能 被 推荐 。 当 物品 偏差 被 当 作 模型 框架 的 一 部 
分 明确 使 用 时 ， 物 品 3 的 预测 评分 也 将 增加 。 然 而 这 样 的 攻击 不 太 可 能 会 对 基于 近邻 的 算 
法 产生 明显 的 影响 。 例 如 ， 考 虑 一 个 基于 用 户 的 近邻 算法 ， 在 这 种 算法 下 ，Mary 的 画像 
将 会 被 用 来 预测 评分 结果 。 注 入 画像 都 跟 Mary 的 评分 画像 没有 相似 性 。 因 此 ，Mary 对 
物品 3 的 预测 评分 不 会 被 虚假 画像 的 注入 信息 影响 。 因 此 ， 这 种 特殊 的 注入 评分 并 没有 产 
生 太 大 影响 。 即 使 有 大 量 虚 假 用 户 注 人， 这 样 的 方式 也 很 难 去 影响 预测 评分 。 同 时 ， 这 样 
的 注入 画像 在 大 多 数 情况 下 都 可 以 被 探测 出 来 ， 因 为 注入 评分 只 针对 单个 物品 。 

考虑 攻击 方式 的 第 二 个 例子 ， 如 表 12-2 所 示 , 在 这 种 情况 下 攻击 者 希望 去 提高 物品 3 
的 排名 ， 并 同时 降低 系统 的 探测 率 ， 这 样 他 对 其 他 物品 产生 了 一 个 随机 的 评分 。 注 意 第 二 
个 例子 中 的 真实 评分 和 第 一 个 例子 中 一 样 ， 但 是 虚假 画像 是 不 同 的 。 这 样 的 攻击 比 表 12-1 
中 展示 的 第 一 个 例子 会 更 加 有 效 。 考 虑 一 个 使 用 基于 用 户 的 近邻 算法 的 推荐 系统 。 只 有 当 
使 用 真实 的 画像 时 ，John 和 Sayani 才 是 Mary 的 临近 用 户 ， 对 于 Mary 而 言 ， 物 品 3 拥有 
一 个 较 低 的 预测 评分 。 当 虚假 画像 在 用 户 近邻 推荐 系统 之 前 注入 ， 许 多 虚假 画像 与 Mary 
并 不 临近 ， 因 为 评分 是 被 随机 选择 的 。 然 而 ，Fake-3 的 画像 偶然 地 跟 Mary 评分 临近 。 结 
RE, Mary 关于 物品 3 的 预测 评分 将 会 被 增加 。 因 此 ， 从 对 手 的 视角 来 看 ， 对 于 一 个 仅 
包含 单个 物品 的 原始 攻击 方式 而 言 ， 这 样 的 攻击 方式 显然 更 加 有 效 。 不 过 ， 这 样 的 攻击 方 
式 也 是 非常 低 效 的 ， 因 为 需要 大 量 地 注 人 画像 才能 去 影响 基于 用 户 的 近邻 算法 的 结果 。 一 
般 来 说 ， 很 难 去 确保 注入 画像 的 评分 和 推荐 系统 中 的 特定 目标 用 户 的 评分 临近 。 毕 竟 ， 为 
了 提高 攻击 的 有 效 性 ， 必 须 使 得 虚假 画像 与 目标 用 户 的 评分 接近 。 

为 了 理解 在 攻击 进程 中 获取 更 多 知识 量 的 重要 性 ， 考 虑 这 样 一 个 例子 ， 攻 击 者 拥有 洪 
在 评分 分 布 的 重要 信息 。 表 12-3 中 展示 了 这 样 的 例子 ， 其 真实 评分 和 表 12-1 一 样 。 然 而 
所 注入 的 评分 被 设计 为 反映 了 潜在 物品 关联 ， 同 时 物品 3 的 评分 被 抬 高 。 例 如 ， 攻 击 者 意 
识 到 ， 在 评分 数据 库 中 ， 物品 1 和 物品 2 的 评分 是 正 相 关 关 系 ， 同 时 物品 4 和 物品 5 也 是 
正 相关 关 系 。 并 且 ， 这 两 组 物品 彼此 之 间 呈 现 负 相关 关系 。 因 此 ， 攻 击 者 注 人 的 画像 信息 
正好 迎合 了 这 个 相关 关系 。 相 应 地 ， 表 12-3 中 所 注入 的 虚假 画像 也 明显 符合 这 个 相关 性 。 
在 这 种 情况 下 ， 对 Mary 而 言 ， 物 品 3 的 评分 显然 更 容易 被 虚假 画像 影响 了 ， 这样 的 影响 
比 表 12-1 和 表 12-2 更 大 。 这 是 因为 三 个 画像 Fake-3、Fake-4、Fake-5 都 跟 Mary 临近 ， 
在 近邻 算法 中 他 们 可 能 被 包含 在 Mary 的 同类 群体 里 。 因 此 ， 这 样 的 攻击 方式 更 加 有 效 ， 因 
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为 这 种 方式 注入 了 更 少 的 虚假 画像 信息 ， 却 产生 了 更 有 效 的 影响 。 男 一 方面 ， 这 样 的 攻击 
方式 也 需要 一 定 的 知识 量 ， 而 在 实际 情况 中 并 不 总 能 获取 这 样 的 知识 。 


R 12-1 原始 攻击 方式 : 注入 对 单个 物品 的 虚假 ” 表 12-2 比 原始 攻击 方式 略 好 的 方式 : 注入 对 单个 物品 
的 虚假 用 户 画 像 以 及 对 其 他 物品 的 随机 评分 



































时 取决 于 推荐 系统 所 使 用 的 特定 算法 。 例 如 ， 基 
于 用 户 和 基于 物品 的 近邻 算法 在 被 攻击 时 会 产生 
不 同 的 倾向 。 如 果 基 于 物品 的 近邻 算法 被 应 用 到 
表 12-3 中 ， 那 么 对 于 Mary 的 预测 评分 而 言 ， 物 
m 3 并 不 会 产生 明显 的 影响 。 这 是 因为 基于 物品 
的 近邻 算法 只 在 “物品 一 物品 ”的 简单 计算 表 中 
使 用 其 他 用 户 的 评分 。 虚 假 信息 影响 了 应 用 到 物 
品 3 上 关于 最 相似 物品 的 相似 度 计 算 。 随 后 Mary 
自己 关于 这 些 物 品 的 评分 将 用 于 预测 。 为 了 改变 
物品 3 的 最 相似 物品 ， 攻 击 者 必须 注 人 大 量 特 定 
的 评分 ， 但 是 这 样 就 使 得 这 场 攻 击 更 容易 
被 探测 到 。 而 且 ， 通 过 改变 特定 物品 的 相似 物品 来 改变 特定 目标 物品 的 预测 结果 也 是 一 件 
很 困难 的 事情 。 毕 竟 ，Mary 自己 关于 这 些 物 品 的 评分 在 预测 评分 的 权重 上 是 大 于 虚假 画 
像 的 。 不 容易 被 成 功 攻 击 的 算法 称 为 健 半 算法 。 推 荐 系统 算法 设计 的 目标 之 一 就 是 去 设计 
一 个 更 健壮 且 不 容易 被 攻击 的 算法 。 

上 述 的 例子 让 我 们 得 到 了 如 下 观察 结果 : 

1) 仔细 设计 的 攻击 能 够 通过 插入 少量 虚假 画像 来 影响 预测 结果 。 另 一 方面 ， 一 个 随 
便 设 计 的 注入 攻击 可 能 对 于 预测 评分 而 言 一 点 效果 都 没有 。 

2) 如 果 更 多 评分 数据 库 的 统计 信息 是 可 用 的 ， 那么 就 更 容易 制造 一 场 有 效 的 攻击 。 
然而 ， 通 常 很 难 获得 关于 评分 数据 库 的 信息 。 

3) 特定 的 攻击 算法 的 有 效 性 取决 于 被 攻击 的 推荐 系统 所 使 用 的 特定 算法 。 

为 了 理解 这 些 权 衡 的 性 质 ， 考 虑 这 样 一 个 推荐 算法 。A 算法 十 分 健壮 ， 所 以 难以 被 攻 
i, 而 B 算 法 并 不 健壮 。 同 样 ， 考 虑 一 个 简单 的 攻击 方式 (标记 为 1 ) 和 一 个 有 效 的 攻击 
方式 (标记 为 2)， 它 们 两 个 都 推送 攻击 。 因 此 ， 对 于 算法 和 攻击 方式 的 结合 有 4 种 不 同方 
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Ao ÆR 12-1 中 ， 我 们 展示 了 特定 推荐 系统 对 于 特定 攻击 方式 的 响应 的 例子 。X 轴 表 示 
在 这 场 攻击 中 注 人 的 虚假 画像 的 百分比 ， 而 Y 轴 表 示 预 测评 分 的 偏 移 量 。 在 这 样 的 情况 
下 ， 预 测评 分 的 偏 移 量 都 是 正 值 ， 因 为 这 是 推送 攻击 。 直 观 来 看 ， 偏 移 量 被 定义 为 对 于 所 
有 用 户 而 言 预 测评 分 相对 于 平均 预测 评分 的 差 。 偏 移 量 可 能 基于 一 个 特殊 〈 推 送 ) 的 物品 
计算 ,也 有 可 能 基于 一 个 (推送 ) 物品 的 子 集 。 关 于 计算 偏 移 量 的 更 多 详细 信息 在 12. 2. 1 
节 介 绍 。 
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一 9 一 算法 B 和 有 效 攻击 2 
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一 6 一 算法 B 和 简单 攻击 1 
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攻击 模式 ( 所 添加 的 虚假 画像 的 百分比 ) 


图 12-1 特定 的 推送 攻击 算法 和 特定 的 推荐 算法 相 结 合 的 效果 示例 


图 中 的 曲线 越 高 ， 则 说 明 这 场 攻击 越 有 效 。 攻 击 者 更 希望 自己 的 攻击 是 有 效 的 ， 因 为 
这 样 它们 就 更 加 难以 被 探测 到 。 可 以 证 明 ， 推 荐 算法 B 和 攻击 类 型 2 的 结合 曲线 是 最 高 
的 ， 这 不 仅仅 是 因为 推荐 算法 B 是 最 脆弱 的 ， 也 因为 攻击 类 型 2 是 最 有 效 的。 可 能 还 存在 
其 他 形式 的 评估 度量 去 探测 某 次 攻击 的 有 效 性 ， 例 如 通过 命中 比例 而 不 是 预测 偏 移 量 。 无 
论 如 何 ， 对 于 某 个 特殊 的 评估 度量 来 说 ， 注 人 虚假 画像 的 影响 总 是 可 量化 的 。 

然而 ， 有 的 时 候 ， 在 攻击 者 进行 一 次 特定 攻击 之 前 ， 我 们 无 法 轻易 去 预测 该 推荐 系 
统 算法 健壮 性 的 具体 结果 。 这 是 因为 攻击 者 可 能 会 针对 特定 的 推荐 系统 算法 去 调整 自己 
的 攻击 方式 ， 因 此 这 时 ， 推 荐 算法 的 健壮 性 就 取决 于 攻击 方式 的 类 型 。 例 如 ， 一 个 攻击 
算法 可 能 对 于 基于 用 户 的 近邻 算法 十 分 有 效 ， 但 是 对 物品 近邻 技术 就 并 不 奏效 ， 反 之 亦 
然 。 通 过 针对 特定 的 推荐 系统 算法 提前 调整 攻击 方式 ， 攻 击 者 可 以 创建 更 有 效 的 攻击 。 幸 
运 的 是 ， 攻 击 者 通常 很 难 去 实现 这 个 目标 ， 除 非 他 真 地 得 到 了 推荐 系统 正在 使 用 的 算法 
信息 。 

推荐 系统 和 攻击 者 之 间 一 直 存 在 一 个 敌对 的 关系 。 攻 击 者 努力 去 设计 更 聪明 的 算法 去 
影响 推荐 系统 ， 然 而 推荐 系统 的 设计 者 努力 设计 出 更 加 健壮 的 推荐 算法 。 尽 管 这 个 章节 的 
目的 是 教会 我 们 如 何 去 设 计 更 加 健壮 的 算法 ， 但 是 理解 攻击 者 的 对 策 对 于 设计 出 更 加 健壮 
的 算法 也 是 十 分 重要 的 。 因 此 ， 在 讨论 健壮 算法 之 前 ， 我 们 首先 将 会 介绍 各 种 类 型 的 攻击 
TX. 
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12.2.1 量化 攻击 的 影响 


为 了 评价 各 种 攻击 方式 的 影响 ， 量 化 这 些 攻击 的 影响 就 变 得 十 分 重要 。 例 如 ， 在 图 12- 1、 
图 12-2 和 图 12- 3 中， 攻击 方式 的 影响 都 使 用 “预测 偏 移 量 ” 来 量化 。 这 些 测量 值 在 图 12- 1 
的 Y 轴 中 展示 。 十 分 详细 地 研究 预测 偏 移 量 如 何 被 计算 出 来 是 非常 有 用 的 。 

考虑 一 个 评分 矩阵 尺 ， 对 应 用 户 集合 可 和 物品 集合 TI。 第 一 步 是 选择 一 个 子 集 U7G 
U 作为 测试 用 户 。 然 后 ， 令 Ira 工作 为 测试 中 的 测试 物品 集合 。 对 于 每 个 物品 JE 1r， 每 
次 执行 一 次 攻击 ， 并 且 测 量 其 攻击 对 Ur 中 用 户 对 物品 7 的 预测 评分 的 影响 。 测 量 所 有 用 
户 和 物品 的 平均 预测 偏 移 量 。 因 此 ， 攻 击 需 要 执行 |Ir | 次 以 便 测量 所 有 测试 物品 的 预测 
偏 移 量 。 

S 7 作为 攻击 前 用 户 i€EUTz 对 物品 jE1Ir ( 原 书 有 误 一 一 译 者 注 ) 的 预测 评分 ， 六 是 攻 
击 之 后 对 物品 j 的 预测 评分 。 然 后 ， 物 品 j 的 用 户 i 的 预测 偏 移 量 由 下 式 给 出 : Oy =7 一 。 
注意 ，6; 可 以 是 正 或 负 。 正 值 表示 推送 攻击 已 成 功 ， 因 此 物品 j 被 给 出 更 高 的 评分 。 如 果 攻 
击 是 核 攻击 ， 则 预测 偏 移 量 的 负 值 表示 成 功 。 然 后 ， 测 试用 户 集合 Ur 和 物品 j 的 平均 偏 移 


量 Aj(U7) 计 算 如 下 : 
Dieu, 58 
Ur 
然后 ，Ir 中 所 有 物品 的 总 体 预测 偏 移 量 A" (Ur, LOSFRAWRD ELH EY he 
移 量 值 : 


A; (Ur) = (12=.1) 


A"(Ur, Ir) = Žep An) (12-2) 
3 ,< JeF T 
预测 偏 移 量 是 量化 被 推送 攻击 的 (或 核 攻击 的 ) 物品 在 有 利于 其 目标 的 方向 上 被 移动 的 程 
度 。 注 意 ，6; 可 以 是 正 或 负 ; 因此 ， 在 与 所 期 望 的 结果 相反 的 方向 上 的 偏 移 量 被 惩罚 。 此 
外 ， 预 测 偏 移 量 曲线 在 推送 攻击 的 情况 下 将 是 向 上 倾斜 的 ， 而 在 核 攻击 的 情况 下 它们 将 是 
癌 下 倾斜 的 。 例 如 ， 在 核 攻击 的 情况 下 ， 预 测 偏 移 量 的 典型 曲线 如 图 12-2 所 示 。 很 明显 ， 
这 些 图 的 走势 与 图 12- 1 所 示 的 走势 相反 。 
虽然 预测 偏 移 量 是 量化 等 级 变化 的 好 方法 ， 但 是 它 通常 不 能 从 最 终 用 户 的 角度 来 测量 
真实 的 有 影响。 最终 用 户 只 关心 她 被 推送 的 物品 是 否 被 置 于 前 & 个 列表 中 (或 从 前 个 列表 
中 移 除 )。 在 许多 情况 下 ， 大 的 预测 偏 移 量 可 能 不 足以 将 物品 移动 到 前 & 个 列表 中 。 因 此 ， 
更 适当 的 度量 是 定义 在 物品 7 和 测试 用 户 集 Ur KR Ph Ur). mP PŽ h (Ur) RE 
义 为 物品 7 出 现在 前 个 推荐 列表 中 的 用 户 占 Ur 的 比例 。 然 后 ， 对 总 的 命中 率 "Ur, 
I7T) 被 定义 为 所 有 测试 用 户 和 物品 的 命中 率 在 测试 物品 集 Ir 上 的 平均 值 : 


ha (Ur, Ir) = 2 Un) (12-3) 
Ay th dente REM ee: 

值得 注意 的 是 ， 命 中 率 不 是 差分 测量 ， 因 为 它 不 计算 评分 的 偏 移 量 。 因 此 ， 与 预测 偏 移 量 不 
同 ， 需 要 绘制 攻击 前 后 的 命中 率 。 在 这 种 类 型 的 图 中 ，X 轴 描 绘 了 推荐 列表 的 大 小 ，Y 轴 撒 
绘 了 命中 率 ; 攻击 的 大 小 ( 即 注 入 的 画像 的 数量 ) 是 固定 的 。 在 图 12- 3 中 展示 出 了 这 样 的 
图 的 示例 ， 其 中 展示 出 了 原始 算法 和 被 攻击 算法 的 命中 率 。 这 两 条 曲线 之 间 的 距离 大 致 反映 了 
对 手 将 物品 推送 到 推荐 列表 上 的 成 功 程度 。 还 可 以 固定 推荐 列表 的 大 小 ， 绘 制 命中 率 与 攻击 规 
模 的 关系 。 这 样 的 图 与 图 12-1 有 些 类 似 ， 因 为 它 反 映 了 增加 攻击 规模 对 命中 率 所 产生 的 影响 。 
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一 7 一 算法 B 和 有 效 攻击 2 
一 一 算法 A 和 有 效 攻击 2 


一 e 一 算法 B 和 简单 攻击 1 
一 * 一 算法 A 和 简单 攻击 1 








攻击 的 影响 ( 预测 的 偏 移 量 ) 





os Tr 
攻击 模式 ( 所 添加 的 虚假 画像 的 百分比 ) 
图 12-2 核 攻击 的 预测 偏 移 的 典型 示例 (与 图 12-1 中 的 推送 攻击 相 比 较 ) 


80 


一 一 攻击 算法 X 和 4% 的 攻击 规模 
70 一 一 没有 攻击 (基线 ) 











aol. 


0 BAO, AE BO. 2S: 0 
推荐 列表 的 大 小 


图 12-3 推送 攻击 对 命中 率 的 影响 





12.3 攻击 类 型 


尽管 特定 物品 的 评分 可 能 是 攻击 的 目标 ， 但 更 重要 的 是 注入 其 他 物品 的 评分 以 使 得 本 
次 攻击 有 效 。 如 果 仅 仅 只 有 一 个 物品 的 假 画像 被 注 人 ， 它 通常 不 会 显著 影响 很 多 推荐 算法 
的 结果 。 并 且 ， 这 样 的 攻击 通常 很 容易 被 自动 化 检测 方法 探测 到 。 因 此 ， 注 入 虚假 画像 时 
通常 要 附加 对 其 他 物品 的 评分 ， 这 样 的 物品 叫 作 填充 物品 。 包 含 填充 物品 的 重要 性 已 经 在 
表 12-1 中 的 例子 得 到 了 体现 。 我 们 可 以 看 到 仅仅 添加 单个 物品 的 评分 并 不 足以 创造 一 次 
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有 效 的 攻击 。 

和 真正 的 用 户 画 像 一 样 ， 大 多 数 物 品 的 评分 将 不 会 在 虚假 用 户 画像 中 被 指定 。 这 种 未 
指定 的 物品 也 称 为 空 物 品 。 从 表 12- 3 的 示例 中 还 可 以 看 出 ， 当 填充 物品 与 目标 物品 在 底 
层 评分 模式 方面 相关 时 ， 攻 击 是 最 有 效 的 。 例 如 ， 如 果 诸 如 《Gladiator》 的 目标 电影 经 常 
被 男 一 个 电影 (例如 《Nero》) 评分 ， 则 当 尝 试 使 用 推进 攻击 或 对 《Gladiator》 的 核 攻击 
时 ， 添 加 《Nero》 的 评分 通常 是 有 益 的 。 而 对 于 像 《Shrek》 这 样 完 全 不 相关 的 电影 添加 
评分 则 收益 很 小 。 然 而 ， 因 为 需要 识别 相关 物品 集合 ， 这 种 攻击 需要 更 多 有 关 评 分 分 布 的 
知识 。 因 此 ， 对 不 同类 型 的 攻击 ， 需 要 在 攻击 的 有 效 性 和 知识 需求 之 间 权 衔 。 

一 些 攻 击 专门 设计 为 推送 攻击 或 是 核 攻 击 。 虽 然 许多 攻击 可 以 被 应 用 于 两 种 情况 ， 但 
每 种 攻击 通常 在 其 中 一 种 情况 中 会 更 有 效 。 这 两 种 类 型 的 攻击 的 评估 中 也 存在 着 微妙 的 差 
异 。 这 两 种 类 型 的 攻击 通常 在 预测 偏 移 量 和 命中 率 方面 表现 不 同 。 例 如 ， 考 虑 到 只 有 少数 
顶级 的 物品 会 被 推荐 ,因此 用 少量 的 差 评 来 核 攻击 一 个 物品 会 更 加 容易 。 换 名 话说 ， 对 命 
中 率 的 影响 可 能 比 在 核 攻击 的 情况 下 对 预测 偏 移 量 的 影响 更 强 。 因 此 ， 在 评估 推送 攻击 和 
核 攻击 时 应 该 使 用 多 种 测量 方式 。 

下 面 ， 我 们 将 讨论 各 种 常用 的 攻击 ， 并 讨论 它们 是 常常 被 用 于 推送 攻击 还 是 被 用 于 核 
攻击 。 这 些 攻击 需要 来 自 对 手 不 同 程度 的 知识 量 。 我 们 将 研究 这 些 不 同 的 攻击 ， 首 先 从 需 
要 最 少 知识 的 攻击 开始 。 


12.3.1 随机 攻击 


在 随机 攻击 中 ， 按 照 围 绕 所 有 物品 的 所 有 评分 的 全 局 均值 的 一 个 概率 分 布 来 对 填充 物 
品 进 行 评 分 。 因 为 使 用 了 全 局 均值 ， 所 以 各 种 填充 物品 的 评分 服从 相同 的 概率 分 布 。 填 充 
物品 是 从 数据 库 中 随机 选择 的 ， 因 此 对 要 评分 的 物品 的 选择 也 不 依赖 于 目标 物品 。 然 而 ， 
在 一 些 情 况 下 ， 可 能 会 为 每 个 画像 使 用 相同 的 填充 物品 集合 。 为 每 个 画像 选择 相同 的 填充 
物品 集合 是 没有 好 处 的 ， 因 为 它 不 会 减少 攻击 所 需 的 知识 ， 但 它 只 能 使 攻击 更 容易 被 发 现 。 

目标 物品 要 么 被 设置 为 最 大 可 能 评分 值 rmax， 要 人 么 被 设 为 最 小 可 能 评分 值 rmn， 这 取 
决 于 它 是 推送 攻击 还 是 核 攻击 。 设 置 此 攻击 所 需 的 主要 知识 是 所 有 评分 的 均值 。 在 大 多 数 
设置 中 确定 评分 的 全 局 平均 值 并 不 困难 。 随 机 攻击 所 需 的 知识 非常 有 限 ， 这 对 于 攻击 者 来 
说 是 不 利 的 ， 因 为 这 种 攻击 通常 不 是 十 分 有 效 。 


12. 3.2 均值 攻击 


在 选择 填充 物品 方面 ， 均 值 攻击 和 随机 攻击 类 似 。 它 为 每 个 画像 选择 相同 的 填充 物品 
集合 。 然 而 ， 就 如 何 将 评分 分 配给 所 选 物品 来 说 ， 均 值 攻击 与 随机 攻击 是 不 同 的 。 在 平均 
攻击 中 ， 分 配给 填充 物品 的 评分 是 在 该 物品 的 评分 平均 值 附 近 的 值 。 目 标 物 品 则 被 分 配 了 
最 大 等 级 或 最 小 等 级 ， 这 取决 于 攻击 是 推送 攻击 还 是 核 攻击 。 注 意 ， 均 值 攻击 需要 有 比 随 
机 攻击 更 多 的 知识 ， 因 为 仅仅 知道 全 局 平均 值 是 不 够 的 。 还 需要 知道 每 个 填充 物品 的 平均 
值 。 此 外 ， 攻 击 在 某 种 程度 上 是 显而易见 的 ， 因 为 对 于 每 个 虚假 画像 都 使 用 相同 的 填充 物 
品 集合 。 

为 了 降低 被 检测 到 的 可 能 性 ， 还 可 以 针对 每 个 注入 用 户 的 画像 使 用 随机 选择 的 填充 物 
品 。 这 样 做 的 缺点 是 需要 更 大 量 的 知识 来 进行 攻击 。 例 如 ， 需 要 每 个 注 和 人 填充 物品 的 全 局 
平均 值 。 然 而 ,在 公开 评分 的 情况 下 ， 这 有 时 是 合理 的 。 例 如 ，Amazon. com 上 的 评分 是 
公开 的 ,并 且 可 以 容易 地 计算 平均 值 。 在 其 他 系统 中 ， 例 如 IMDb， 每 个 物品 的 平均 评分 通 


RGRKREMRAAK 295 


常 直接 公告 的 。 或 者 ， 可 以 从 候选 物品 的 小 集合 中 随机 选择 物品 ， 以 便 确定 每 个 假 画像 的 填 
充 物 品 。 这 种 方式 需要 的 知识 少 得 多 。 此 外 ，[123] 已 经 表明 该 方法 不 会 损失 过 多 的 知识 。 


12.3.3 bandwagon 攻击 


许多 上 述 攻 击 的 主要 问题 是 评分 怎 阵 的 固有 稀 朴 性 ， 这 导致 注入 画像 与 现 有 画像 很 难 
相似 。 当 选择 太 多 物品 作为 填充 物品 时 ， 攻 击 会 变 得 明显 。 另 一 方面 ， 当 针对 假 画 像 随机 
选择 少量 填充 物品 时 ， 则 可 能 没有 与 其 他 用 户 共 同 的 观察 到 的 足够 数量 的 评分 。 在 基于 用 
户 的 协作 过 滤 中 ， 当 虚假 画像 与 目标 用 户 的 评分 没有 相似 性 时 ， 其 攻击 是 无 效 的 。 故 攻击 
的 有 效 性 降低 。 

bandwagon 攻击 依赖 于 一 个 事实 ， 即 根据 物品 所 受到 的 评分 ， 只 有 少数 的 物品 很 流 
行 。 例 如 ， 大 片 电影 或 广泛 使 用 的 教科 书 可 能 会 收 到 很 多 评分 。 因 此 ， 如 果 这 些 物品 总 是 
在 虚假 用 户 画 像 中 被 评分 ， 则 增加 了 虚假 用 户 与 目标 用 户 相似 的 机 会 。 在 这 种 情况 下 ， 目 
标 用 户 的 预测 评分 更 可 能 受到 攻击 的 影响 。 因 此 ， 可 以 使 用 关于 物品 的 流行 性 的 知识 来 提 
高 攻击 的 有 效 性 。 除 了 受 欢 迎 的 物品 外 ， 一 组 随机 物品 被 当 作 额外 的 填充 物品 。 

在 bandwagon 攻击 中 ， 流 行 物 品 的 评分 被 设置 为 其 最 大 可 能 评分 值 rmax 。 其 他 填充 物 
品 是 随机 评分 的 。 将 最 大 评分 值 分 配给 最 受 欢 迎 的 物品 的 原因 是 增加 在 找到 更 多 与 假 画像 
用 户 相 似 的 用 户 的 机 会 。 这 是 因为 受 欢 迎 的 物品 更 可 能 在 实际 设置 中 被 分 配 为 正 分 级 。 目 
标 物品 被 设置 为 最 大 值 rwax 或 最 小 值 rmin， 这 取决 于 它 是 推送 攻击 还 是 虚假 攻击 。 

值得 注意 的 是 ， 在 该 特定 情况 下 ， “流行” 物品 的 概念 不 一 定 指 最 频繁 评分 的 物品 ， 
而 是 指 被 广泛 喜欢 的 物品 。 这 样 的 物品 可 能 在 评分 数据 库 中 经 常 被 以 积极 的 方式 评分 。 人 
们 不 需要 使 用 评分 矩阵 来 确定 最 受 欢迎 的 物品 。 通 常 容 易 从 独立 于 评分 矩阵 的 来 源 确定 任 
何 类 型 的 最 受 欢 迎 的 产品 。 这 是 bandwagon 攻击 比 均值 攻击 需要 少 得 多 的 知识 的 主要 原因 。 
尽管 bandwagon 攻击 需要 的 知识 更 少 ,但 它 通常 和 均值 攻击 一 样 有 效 。 一 般 来 说 ，bandwag- 
on 攻击 可 以 显著 影响 基于 用 户 的 协同 过 滤 算 法 ,但 它们 很 难 影响 基于 物品 的 算法 。 


12.3.4 流行 攻击 


流行 攻击 与 bandwagon 攻击 有 许多 相似 之 处 ， 它 也 使 用 流行 物品 来 创建 填充 物品 。 然 
而 ， 流 行 物 品 可 能 被 广泛 地 喜欢 或 广泛 地 不 喜欢 ， 但 它们 必须 有 很 多 评分 。 为 了 设置 这 些 流 
行 物品 的 评分 ， 流 行 攻 击 还 假定 有 更 多 关于 评分 数据 库 的 知识 。 此 外 ， 它 不 假定 存在 附加 
的 一 组 填充 物品 。 因 此 ， 在 这 种 攻击 必须 使 用 比 在 bandwagon 攻击 下 更 受 欢 迎 的 物品 。 

为 了 智能 地 设置 流行 物品 的 评分 ， 需 要 假定 对 底层 评分 数据 库 掌 握 更 多 的 知识 。 特 别 
地 ， 假 设 流 行 物品 的 评分 的 平均 值 是 已 知 的 。 为 了 实现 推送 攻击 ， 虚 假 用 户 画 像 中 的 各 种 
填充 物品 的 等 级 被 设置 如 下 : 

D 如 果 填 充 物品 在 评分 和 矩阵 中 的 平均 评分 小 于 所 有 物品 的 全 局 评分 平均 值 ， 则 该 物 
品 的 评分 被 设置 为 其 最 小 可 能 值 rmin。 

2) 如 果 填 充 物品 的 平均 评分 大 于 所 有 物品 的 全 局 评分 平均 值 ， 则 物品 的 评分 被 设置 
raa T Lig 

3) 在 虚假 用 户 画 像 中 ， 目 标 物品 的 评分 总 是 设置 为 rmax。 

以 这 种 不 寻常 的 方式 设置 评分 的 原因 是 : (a)〉 通 过 选择 填充 物品 的 rnin 和 rmin 十 1 的 
差分 评分 来 增加 在 虚假 画像 中 找到 与 目标 用 户 类 似 画像 的 可 能 性 ; Cb) 增加 目标 物品 和 填 
充 物品 之 间 的 评分 间隙 以 更 有 效 地 推动 物品 这 种 攻击 ， 也 可 以 用 于 轻微 修改 的 虚假 攻击 的 
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情况 。 在 核 攻击 中 ， 对 于 低 评 分 的 流行 物品 ， 填 充 物品 的 评分 被 设置 为 rmax 一 1， 对 于 高 
评分 流行 物品 ， 填 充 物品 的 评分 被 设置 为 raax， 并 且 目 标 物品 的 评分 被 设置 为 rmin。 

如 在 bandwagon 攻击 的 情况 下 ， 流 行 物 品 不 需要 从 评分 数据 库 推断 。 这 样 的 信息 可 以 容 
易 地 从 其 他 数据 源 推断 。 然 而 ， 人 们 需要 知道 评分 的 平均 值 ， 尽 管 只 针对 流行 的 物品 。 也 可 
以 使 用 外 部 源 来 估计 具有 和 较 低 或 较 高 评分 的 流行 物品 。 例 如 ， 可 以 使 用 评论 的 文本 来 确定 
有 具有 积极 或 消极 情绪 的 物品 。 然 而 ， 流 行 攻 击 的 知识 要 求 总 是 大 于 bandwagon 攻击 的 知 
REK. 


12. 3. 5” 爱 / 愧 攻击 


爱 / 异 攻击 专门 针对 核 攻 击 ， 它 的 主要 优点 是 它 需 要 非常 少 的 知识 来 启动 这 种 攻击 。 
在 爱 / 增 攻击 中 ， 虚 假 物 品 被 设置 为 最 小 评分 rmin， 而 其 他 物品 被 设置 为 最 大 评分 rmax。 尽 
管 知识 要 求 很 低 ， 但 这 种 攻击 是 非常 有 效 的 。 如 前 所 述 ， 核 攻击 通常 比 推送 攻击 更 容易 启 
动 。 因 此 ， 与 推送 攻击 相 比 ， 这 种 低 知 识 攻击 通常 具有 更 好 的 成 功 机 会 。 例 如 ， 对 称 设计 
的 攻击 ， 其 中 填充 物品 的 评分 被 设置 为 rmin， 并 且 目 标 物品 的 评分 被 设置 为 rmax， 对 于 推 
送 物品 来 说 不 是 那么 成 功 。 爱 / 懂 攻 击 高 度 用 于 基于 用 户 的 协同 过 滤 算法 ， 但 它 对 于 物品 
的 协同 过 滤 算 法 几乎 完全 无 效 。 


12.3.6 I) bandwagon 攻击 


这 种 攻击 是 专门 针对 核 攻 击 。 反 向 bandwagon 攻击 是 bandwagon 攻击 的 变形 ， 其 中 
广泛 不 被 喜欢 的 物品 被 用 作 填 充 物品 来 实施 攻击 。“ 广 泛 不 被 喜欢 ”意味 着 该 物品 已 经 收 
到 很 多 评分 。 例 如 ， 如 果 电 影 在 其 发 行 之 前 被 高 度 营销 ， 但 是 事实 上 票房 失败 ， 那 么 它 将 
收 到 许多 低 评 分 。 这 些 物 品 被 选 为 填充 物品 。 这 样 的 填充 物品 与 核 物品 一 起 被 分 配 低 评 
分 。 如 同 在 bandwagon 攻击 的 情况 下 ， 从 其 他 频道 发 现 这 样 的 物品 通常 不 是 很 困难 。 当 基 
于 物品 的 协同 过 滤 算 法 被 用 于 推荐 时 ， 这 种 核 攻击 方式 非常 有 效 。 虽 然 它 也 可 以 在 基于 用 户 
的 协同 过 滤 算 法 的 情况 下 使 用 ， 但 是 采用 其 他 攻击 方法 〈 例 如 均值 攻击 ) 通常 会 更 有 效 。 


12.3.7 探测 攻击 


上 述 方法 的 一 个 重要 方面 是 ， 总 是 将 许多 画像 中 的 评分 人 为 地 设 为 相等 的 值 ， 例 如 
rmin 和 rmin 十 1。 使 用 这 种 评分 方式 使 攻击 变 得 容易 被 检测 。 探 测 攻击 试图 直接 从 基于 用 户 
的 推荐 系统 获得 更 通 真 的 物品 评分 ， 以 便 在 攻击 中 使 用 这 些 值 。 换 名 话说， 通过 探测 推荐 
系统 的 操作 来 实施 攻击 。 

在 探测 攻击 中 ， 攻 击 者 创建 种 子 画像 ， 并 且 由 推荐 系统 生成 的 预测 被 用 于 学 习 相 关 物 
品 及 其 评分 。 由 于 这 些 推荐 已 由 该 种 子 画像 的 用 户 邻 居 生 成 ， 所 以 它们 很 可 能 与 种 子 画像 
相关 。 也 可 以 使 用 这 种 方法 来 学 习 特 定 类 型 的 物品 的 评分 。 例 如 ， 在 电影 推荐 场景 中 ， 被 
推送 或 被 贬低 的 目标 物品 对 应 于 动作 电影 的 情况 。 种 子 画 像 可 以 包含 一 组 流行 动作 电影 的 
评分 。 然 后， 当 种 子 画像 被 用 作 目 标 用 户 时 ， 可 以 通过 观察 基于 用 户 的 协同 过 滤 算 法 的 操 
作 来 进一步 扩展 种 子 画像 。 其 所 推荐 的 物品 及 其 预测 的 评分 可 以 被 用 于 添加 种 子 画 像 信 
息 。 目 标 物品 的 评分 分 别 被 设置 为 rmax 或 rmin， 这 取决 于 它 是 否 被 推送 或 被 贬低 。 从 探测 
方法 学 习 到 的 其 他 填充 物品 的 评分 被 设置 为 推荐 系统 所 预测 的 平均 值 。 


12. 3.8 分 段 攻击 
几乎 所 有 上 述 攻击 方法 可 以 与 基于 用 户 的 协同 过 滤 算 法 有 效 地 工作 , 但 是 它们 不 能 与 
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基于 物品 的 算法 有 效 地 工作 。 唯 一 的 例外 是 反 向 bandwagon 攻击 ， 它 只 用 于 贬低 物品 ， 
但 不 推送 物品 。 基 于 物品 的 协同 过 滤 算 法 通常 更 难 攻击 。 这 种 现象 的 原因 之 一 是 基于 物品 
的 算法 利用 目标 用 户 自己 的 评分 来 进行 推荐 。 目 标 用 户 始 终 是 真实 用 户 。 显 然 ， 不 能 使 用 
注入 虚假 画像 来 操纵 真正 用 户 的 指定 评分 。 

但 是 ， 可 以 使 用 虚假 画像 来 更 改 对 等 (peer) 物品 。 修 改 对 等 物品 会 对 预测 评分 的 质 
量 产生 影响 。 在 分 段 攻击 中 ， 攻 击 者 使 用 其 领域 知识 来 识别 他 们 推送 物品 的 目标 用 户 组 
( 即 具有 特定 兴趣 的 用 户 )。 例 如 ， 攻 击 者 可 能 会 决定 将 历史 电影 (如 《Gladiator》) 推送 
给 过 去 喜欢 历史 电影 的 用 户 。 注 意 ， 特 定 电影 的 相关 类 型 通常 是 常识 ， 并 且 其 不 需要 来 自 
评分 矩阵 的 任何 特定 信息 。 因 此 ， 攻 击 者 的 第 一 步 是 确定 哪些 段 〈 即 类 别 或 类 型 ) 的 物品 
最 接近 给 定 物品 。 这 样 的 物品 与 被 推送 的 物品 一 起 被 分 配 最 大 可 能 的 评分 。 附 加 的 一 组 抽 
样 填充 物品 被 分 配 最 小 评分 。 这 使 得 对 于 相同 类 型 的 物品 的 相似 性 的 变化 最 大 化 。 基 本 思 
想 是 攻击 者 确保 在 基于 物品 的 推荐 过 程 中 仅 使 用 非常 相似 的 物品 。 人 们 通常 假设 使 用 与 目 
标 物品 的 类 型 相似 的 物品 会 比 使 用 其 他 物品 更 有 利 。 毕 竟 ， 用 户 倾向 于 以 类 似 的 方式 评价 
相似 的 物品 。 因 此 ， 对 于 过 去 喜欢 这 种 类 型 的 电影 的 用 户 ， 由 于 目标 物品 具有 最 大 的 相关 
性 ， 因 此 目标 物品 的 预测 评分 将 比 相 同类 型 的 其 他 物品 更 高 ， 故 更 有 可 能 被 推荐 。 虽 然 人 
们 也 可 以 使 用 分 段 攻 击 的 变种 做 核 攻 击 ， 但 是 它 对 于 推送 攻击 最 有 效 。 此 外 ， 分 段 攻击 还 
可 以 有 效 地 用 于 用 户 协 同 过 滤 算 法 的 上 下 文中 。 

分 段 攻 击 是 对 最 喜欢 的 物品 攻击 的 概念 的 泛 化 023] 。 最 喜欢 的 物品 攻击 是 专 为 特定 用 
户 设 计 的 。 填 充 物品 被 选择 为 一 组 物品 ， 使 得 它们 的 评分 大 于 平均 用 户 评 分 。 在 这 种 情况 
下 ， 这 些 物品 和 推送 物品 的 评分 被 设置 为 它们 的 最 大 值 ， 并 且 填 充 物 品 的 评分 被 设置 为 其 
中 的 最 小 值 。 尽 管 最 喜欢 的 物品 攻击 对 基于 用 户 和 基于 物品 的 协同 过 滤 算 法 都 很 有 效 ， 但 
攻击 仅 限于 特定 用 户 。 此 外 ， 攻 击 需 要 大 量 的 关于 评分 值 的 知识 。 这 些 特征 往往 使 这 种 攻 
击 相 当 不 切实 际 。 它 的 主要 作用 是 为 其 他 攻击 的 有 效 性 建立 上 限 。 


12. 3.9 基本 推荐 算法 的 效果 


如 之 前 所 讨论 的 ， 对 攻击 方式 的 选择 高 度 依赖 于 当前 的 推荐 算法 。 一 般 来 说 ， 基 于 用 
户 的 推荐 算法 比 起 基于 物品 的 推荐 算法 更 容易 受到 攻击 。 只 有 一 少 部 分 攻击 算法 ， 例 如 反 
向 bandwagon 攻击 和 分 段 攻击 是 专门 针对 基于 物品 的 推荐 算法 。 大 多 数 的 攻击 算法 只 对 
基于 用 户 的 算法 有 效 ， 而 对 基于 物品 的 算法 的 影响 不 大 。 某 些 攻 击 算法 ， 例 如 爱 / 异 攻击 
对 基于 物品 的 算法 完全 无 效 。 

有 趣 的 是 ， 攻 击 算法 的 大 部 分 工作 主要 集中 在 基于 近邻 的 方法 上 ， 并 且 对 于 基于 模型 
的 算法 的 有 效 性 只 有 少数 研究 。 一 些 最 近 的 工作 [56,52 分 析 了 基于 模型 的 算法 对 攻击 的 脆 
弱 性 。 分 析 算 法 的 示例 包括 基于 聚 类 的 算法 、 基 于 PCA 的 方法 、 基 于 LSA 的 方法 和 关联 规 
则 方法 。 实 验 表 明 ， 与 基于 用 户 的 协同 过 滤 算 法 相 比 ， 基 于 模型 的 算法 对 攻击 通常 更 加 健 
壮 ， 但 是 在 不 同 算法 之 间 存 在 一 些 变化 。 混 合算 法 倾向 于 使 得 方法 更 加 健壮 ， 特 别 是 当 使 用 
外 部 领域 知识 时 。 这 是 因为 领域 知识 不 能 受 注入 机 制 的 影响 。 各 种 攻击 对 各 种 基于 模型 的 协 
同 过 滤 算 法 的 影响 的 总 结 可 以 在 [523] 中 找到 。 

虽然 本 章 主要 集中 于 明确 的 评分 ， 但 也 为 隐 式 反馈 数据 集 设 计 了 几 种 攻击 方法 [2] 。 正 
如 显 式 数据 集 需 要 注入 假 画 像 一 样 ， 隐 式 反馈 数据 集 需 要 注 和 人 假 操 作 。 基 本 思想 是 将 假 动 
作 与 其 他 流行 的 动作 相关 联 ， 以 便 给 出 假 动 作 与 这 些 流 行 的 动作 类 似 的 印象 。 考 虑 一 个 网 
站 ， 和 希望 通过 在 点 击 流 中 注入 假 动作 来 增加 推荐 特定 网 页 的 可 能 性 。 注 入 假 动 作 的 机 制 是 
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使 用 一 个 模拟 Web BU eth AY A oy Me, MER De A A PO, A HES A hn 
mo AB AF a A A), He E be S Ae a A — E 
取 。 这 种 攻击 可 以 被 视 为 bandwagon 攻击 的 隐 式 版 本 。 


12.4 ”探测 推荐 系统 中 的 攻击 


在 攻击 者 和 推荐 系统 的 设计 者 之 间 存 在 一 个 对 抗 关 系 。 从 维护 一 个 健壮 的 推荐 系统 的 
角度 来 看 ， 抵 御 攻 击 最 好 的 方式 是 探测 到 它们 。 攻 击 被 探测 到 后 ， 我 们 可 以 采取 修正 措施 
(例如 删除 伪造 的 用 户 画 像 ;。 因 此 ， 探 测 虚假 用 户 画 像 对 于 设计 健壮 推荐 系统 而 言 是 关键 
的 元 素 。 然 而 ， 在 虚假 用 户 画 像 移 除 的 过 程 中 是 极其 容易 发 生 错误 的 ， 因 为 真实 的 用 户 画 
像 也 有 可 能 被 移 除 。 不 产生 过 多 的 移 除 错误 是 十 分 重要 的 ， 因 为 移 除 认证 用 户 的 画像 是 会 
产生 反作用 的 。 男 一 方面 ， 过 多 虚假 用 户 画 像 没有 被 移 除 也 是 不 可 取 的 。 这 就 需要 在 精度 
和 虚假 用 户 的 查 全 率 之 间 做 一 个 权衡 。 相 应 地 ， 探 测 攻 击 的 算法 往往 以 准确 率 和 召回 率 这 
两 个 指标 进行 测量 。 因 此 ,我 们 也 可 以 使 用 9 受 试 者 工作 特征 (ROC) 曲线 (参见 第 7 
章 )， 这 条 曲线 展示 了 真 阳 性 率 (TPR) 和 假 阳 性 率 (FPR) 之 间 的 权衡 。 为 了 评估 移 除 
攻击 操作 的 有 效 性 ， 一 种 可 供 选择 的 方法 是 测量 移 除 用 户 画 像 后 对 推荐 系统 精确 度 的 影 
响 。 例 如 ， 我 们 可 以 测量 过 滤 某 条 用 户 画 像 前 后 推荐 系统 的 平均 绝对 误差 。 可 以 用 该 测度 
对 各 类 探测 算法 进行 比较 。 

几乎 所 有 的 攻击 都 是 使 用 多 个 画像 去 破坏 推荐 系统 。 因 此 ， 用 户 移 除 时 可 能 是 作为 独 
立 的 个 体 ， 也 可 能 是 作为 某 个 画像 组 之 一 。 不 同 的 攻击 算法 会 依据 各 自 的 用 例 去 进行 设 
计 。 进 一 步 讲 ， 探 测 攻击 的 算法 可 以 是 有 监督 的 或 者 是 无 监督 的 。 这 两 种 类 别 的 探测 算法 
之 间 的 区 别 如 下 : 

D 无 监督 式 探测 攻击 的 算法 : 在 这 种 算法 下 ， 特 殊 的 规则 被 应 用 于 探测 虚假 画像 。 
例如 ， 如 果 一 个 画像 (或 者 其 中 的 重要 特征 ) 和 许多 其 他 画像 是 大 体 一 致 的 ， 那 么 所 有 这 
些 相似 的 画像 都 有 可 能 是 为 了 创造 某 次 攻击 而 注 和 的。 这 种 类 别 的 算法 的 基本 思想 是 识别 
攻击 画像 和 真实 画像 不 相似 的 关键 特征 。 这 样 的 特征 可 以 被 用 来 设计 无 监督 启发 式 算法 去 
进行 虚假 画像 探测 。 

2) 监督 式 探测 攻击 的 算法 。 监 督 探测 算法 使 用 了 分 类 模型 去 探测 攻击 。 独 立 的 用 户 
画像 或 者 一 组 用 户 画 像 被 特征 化 为 多 维特 征 向 量 。 在 许多 情况 下 ， 多 维特 征 向 量 是 根据 无 
监督 用 例 中 使 用 的 特征 派生 的 。 例 如 ， 完 全 相同 的 用 户 画 像 的 数量 可 以 作为 这 些 用 户 画像 
的 特征 。 多 个 特征 可 以 从 不 同类 型 的 攻击 中 的 各 种 特征 中 提取 。 一 个 这 样 的 二 元 分 类 器 可 
以 被 训练 出 来 : 已 知 的 攻击 画像 被 标记 为 十 1， 其 余 的 画像 被 标记 为 一 1。 训 练 好 的 分 类 器 
可 以 被 用 于 预测 给 定 画 像 真 实 的 可 能 性 。 

监督 式 探测 攻击 的 算法 通常 比 无 监督 式 探测 攻击 的 算法 更 加 有 效 ， 因 为 前 者 已 经 利用 
先前 的 数据 进行 了 学 习 。 但 是 ,通常 很 难 去 获得 攻击 画像 的 用 例 。 

探测 攻击 的 方法 分 为 单 体 画像 探测 方法 和 群体 画像 探测 方法 。 当 探测 单 体 攻击 画像 
时 ， 在 估计 每 一 个 用 户 画 像 是 否 为 攻击 画像 时 会 被 独立 对 待 。 在 探测 群体 攻击 时 ， 一 组 画 
像 被 当 作 一 个 组 群 。 这 里 需要 注意 的 是 ， 监 督 式 探测 攻击 的 算法 和 无 监督 式 探测 攻击 的 算 
法 都 有 单 体 探测 和 群体 探测 之 分 。 下 面 ， 我 们 将 要 讨论 单 体 攻击 画像 的 探测 方法 和 群体 攻 


© ”在 这 里 ，ROC 曲线 与 第 7 章 的 不 同 。 在 第 7 章 ，ROC 曲线 衡量 的 是 排名 项 目的 有 效 性 。 这 里 ， 我 们 基于 用 户 
画像 可 能 为 假 的 情况 衡量 其 有 效 性 。 在 这 两 种 情况 下 ， 使 用 ROC 曲线 的 一 般 原 则 是 相似 的 ， 因 为 在 这 两 种 情 
况 下 ， 排 序 都 与 二 进 制 的 基本 事实 相 比 较 。 
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击 画 像 的 探测 方法 。 


12.4.1 单 体 攻击 画像 的 探测 


一 个 用 于 单 体 攻击 画像 探测 (single attack-profile detection) 的 无 监督 式 算 法 在 L158] 
中 讨论 。 在 这 项 技术 中 ， 每 个 用 户 的 画像 被 抽象 出 一 组 特征 。 在 一 组 画像 中 特征 值 过 高 或 
者 过 低 的 画像 极 有 可 能 是 攻击 画像 。 在 很 多 情况 下 ， 这 些 特征 测量 了 某 个 特定 的 画像 与 系 
统 中 其 他 画像 的 一 致 性 。 因 此 ， 特 征 中 具有 特殊 值 的 部 分 可 以 用 于 对 攻击 的 探测 。 其 他 启 
发 式 函 数 也 可 以 被 用 于 计算 这 些 特征 ， 例 如 我 们 可 以 按照 如 下 步骤 计算 : 

1) 预测 差异 值 (NPD): 对 于 一 个 给 定 的 用 户 ，NPD 被 定义 为 在 系统 中 移 除 该 用 户 
后 预测 结果 的 改变 量 。 大 体 上 ， 对 画像 的 进攻 往往 具有 更 高 的 预测 差异 值 ， 因 为 攻击 画像 
是 从 最 初 就 要 控制 系统 的 预测 。 

2) 彼此 不 一 致 度 (DD): MFM RS [rj jnxn， 设 v 为 物品 7 的 平均 评分 。 然 
后 ， 对 于 物品 i， 用 户 i 与 其 他 用 户 的 差异 度 是 |7; 一 v; | 。 从 用 户 z 上 的 |I;| 阶 我 们 可 以 得 
到 该 值 的 平均 数 ， 即 用 户 i 的 不 一 致 度 DDG): 

; [rs —v; | 
DDG) = iam (12-4) 
不 一 致 度 高 的 用 户 有 更 大 的 概率 是 攻击 画像 。 因 为 攻击 画像 大 多 与 其 他 评分 的 分 布 情 况 
不 同 。 

3) 评分 差异 (RDMA): 评分 差异 被 定义 为 一 个 物品 距离 均值 评分 的 平均 绝对 误差 。 
对 每 个 物品 j 来 说 ， 计 算 均 值 时 均值 的 评分 偏差 是 道 频率 if; 。 首 频率 if; 被 定义 为 对 物品 j 
进行 评分 的 用 户 数 的 倒数 。 令 几 为 物品 7 的 带 偏差 的 均值 评分 。 令 L AR i 评分 过 的 
物品 。 那 么 ， 对 于 用 户 i 来 说 ，RDMA(i) 的 值 定义 如 下 : 

rij =V “if; 
RDMA(i) = TAL foul! (12-5) 
注意 在 上 述 等 式 中 存在 道 频率 亡 ， 使 得 稀有 物品 有 更 大 的 重要 性 。 将 该 公式 与 公式 (12-4 
进行 比较 是 有 益 的 ， 公 式 (12- 4) 在 计算 的 任何 阶段 不 使 用 这 种 加 权 。 此 度量 值 的 大 小 表 
示 了 用 户 画 像 是 攻击 的 可 能 性 。 
4) 用 户 评分 中 的 标准 偏差 : 这 是 特定 用 户 的 评分 中 的 标准 偏差 。 如 果 u 是 用 户 i 的 
平均 评分 ， 并且 I; 是 被 该 用 户 评分 过 的 物品 集合 ， 则 标准 偏差 o 计算 如 下 : 
(ri et PD 
pa eae Se _ (12-6) 
即使 虚假 画 你 的 评分 与 其 他 用 户 显 著 不 同 ， 但 是 它们 彼此 通常 非常 相似 ， 因 为 许多 填充 物 
品 被 设置 为 相同 的 评分 值 ， 对 于 假 画像 ， 标 准 偏 差 o; 趋向 于 较 小 。 

5) 与 前 有 个 邻居 的 相似 度 (SN): 在 许多 情况 下 ， 攻击 画像 是 以 协同 的 方式 被 插入 ， 
结果 是 用 户 与 她 最 近 的 邻居 的 相似 度 增 加 了 。 因 此 ， 如 果 wi 是 用 户 i 和 j 之 间 的 相似 度 ， 
并 且 NG 是 用 户 守 的 邻居 的 集合 ， 则 相似 度 SNOU TF: 

Dien Wij 
可 以 使 用 任何 标准 的 用 户 一 用 户 相 似 性 度量 (例如 Pearson 相关 系数 ) 来 计算 wi 的 值 。 
值得 注意 的 是 ， 除 了 RDMA 外 ， 以 上 大 部 分 度量 ， 也 被 [43] 应 用 在 推荐 系统 中 寻找 
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有 影响 的 用 户 。 之 所 以 产生 这 个 巧合 ， 是 因为 攻击 者 设计 虚假 画像 就 是 为 了 操作 预测 评分 ， 
而 有 影响 的 用 户 也 可 以 起 到 这 个 作用 。 同 时 ， 除 了 标准 差 ， 以 上 所 有 测度 在 攻击 画像 的 用 例 
上 呈现 出 了 偏 大 的 值 。L158] 提出 的 算法 证 明了 在 一 场 模拟 的 攻击 中 ， 攻 击 画 像 上 的 所 有 
这 些 测度 都 呈现 出 了 差异 值 。 基 于 以 上 基本 原则 的 测度 也 可 以 用 于 探测 算法 。 其 他 特征 同 
样 也 可 以 抽象 出 来 。 例 如 ， 一 个 不 寻常 的 评分 较 高 的 数字 也 是 十 分 可 疑 的 [S30]。 

上 述 提 到 的 特征 不 仅仅 对 无 监督 式 探测 攻击 有 效 ， 对 监督 式 探测 攻击 也 很 有 效 。 无 监 
督 式 探测 攻击 的 算法 和 监督 式 探测 攻击 的 算法 的 主要 差异 是 先前 的 攻击 画像 用 户 是 否 可 
用 。 如 果 可 用 ， 这 些 特征 可 以 被 用 于 创建 多 维 向 量 并 且 构 建 分 类 模型 。 对 于 某 个 给 定 的 用 
户 画 像 而 言 ， 攻 击 行为 是 未 知 的 ， 这 些 特征 都 可 以 被 抽象 出 来 。 通 过 攻击 用 例 的 训练 集 构 
建 出 的 分 类 模型 ， 可 以 被 用 在 这 些 特征 上 来 计算 某 个 画像 是 攻击 的 可 能 性 。 

一 个 监督 式 探测 攻击 的 算法 的 例子 在 [124] 中 讨论 。 以 上 讨论 的 测度 被 用 作 探 测 攻 
击 的 算法 的 特征 。 除 了 这 些 测 度 ， 文 中 还 讨论 了 一 些 泛 类 和 特殊 模型 特征 。 特 殊 模 型 特征 
用 于 探测 特定 的 攻击 类 型 。 例 如 均值 攻击 和 分 段 攻击 。 泛 类 特征 在 [124] 中 讨论 如 下 : 

D 平均 一 致 性 的 加 权 偏 差 (WDMA): WDMA 度量 与 RDMA ERX, 但 它 对 稀 
有 物品 的 评分 给 予 更 大 的 权重 。 因 此 ， 在 WDMA 计算 中 使 用 逆 频 率 的 平方 而 不 是 逆 频 
率 。 因 此 ， 使 用 与 公式 (12-5) 相同 的 符号 ，WDMA 特征 计算 如 下 : 

:£2 
WDMA(i) = se, ED Adi. (12-8) 

2) 加 权 一 致 度 CWDA): ROMA 度量 的 第 二 种 变形 ， 仅 使 用 由 公式 12-5) 的 右边 

定义 的 RDMA 度量 的 分 子 : 





WDA) = >) |r; — v | + if; 
j€l, 

3) 修改 的 相似 度 : 修改 的 相似 度 类 似 于 公式 12-7) 中 相似 度 的 定义 。 主 要 区 别 在 
F, AR (12-7) 中 的 相似 度 值 wi 与 评估 物品 i 和 j 的 用 户 的 数量 成 比例 地 折扣 。 该 折扣 
是 基于 一 个 假设 : FAP i 和 j 之 间 共 同 的 物品 数量 越 小 ， 所 计算 的 相似 度 就 越 不 可 靠 。 

除 此 以 外 ， 一 些 特殊 模型 特征 在 [124] 中 得 到 了 应 用 。 读 者 可 以 在 [124] 中 阅读 到 
这 些 特 征 的 详细 信息 。 该 工作 对 近邻 分 类 器 、C4. 5 决策 树 、 支 持 向 量 机 三 种 不 同 的 算 
法 进行 了 测试 。 我 们 可 以 发 现 这 些 不同 的 分 类 器 在 权衡 探测 攻击 画像 的 准确 率 和 召回 率 之 
间 有 不 同 的 权衡 。 支 持 向 量 机 体现 出 最 优 的 整体 性 能 。 


12.4.2 群体 攻击 画像 的 探测 


在 以 下 用 例 中 ， 攻 击 画像 作为 群体 去 探测 ， 而 不 再 是 独立 的 个 体 。 此 处 的 基本 原则 是 同 
一 次 攻击 往往 基于 相近 的 画像 组 成 的 画像 组 。 因 此 ， 许 多 方法 使 用 聚 类 策略 去 探测 攻击 。 其 
中 许多 方法 是 在 推荐 时 执行 探测 687] ， 而 其 他 方法 则 使 用 了 更 传统 的 预 处 理 策略 C27] ， 这 种 
策略 会 优先 执行 探测 攻击 ， 预 先 删除 掉 虚 假 画 像 。 

12. 4.2. 1 预 处 理 方法 

最 常见 的 方法 是 使 用 聚 类 来 删除 假 画 像 。 由 于 攻击 画像 的 设计 方式 ， 正 规 画像 和 假 画 
像 构 成 不 同 的 集群 。 这 是 因为 假 画 像 中 的 许多 评分 是 相同 的 ， 因 此 更 可 能 形成 紧凑 的 簇 。 
事实 上 ,， 假 画像 的 簇 的 相对 紧密 度 是 检测 它们 的 一 种 方式 。[427] 中 提出 的 方法 使 用 PL- 
SA 来 执行 用 户 画 像 的 聚 类 。 注 意 ，PLSA 已 经 创建 了 软 聚 类 ， 其 中 每 个 用 户 画 像 具 有 属 
于 某 一 类 的 特定 概率 。 通 过 将 每 个 用 户 画 像 分 配给 具有 最 大 成 员 概率 的 类 ， 可 将 该 软 聚 类 


(12-9) 
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转换 为 硬 聚 类 。 虽 然 我 们 在 这 里 使 用 PLSA 方法 聚 类 , 但 是 实际 上 可 以 使 用 任何 聚 类 算 
法 。 在 已 经 识别 硬 簇 之 后 ， 计 算 每 个 簇 的 平均 Mahalanobis 半径 。 假 定 具 有 最 小 Mahal- 
anobis 半径 的 簇 包含 假 用 户 。 这 种 方法 是 基于 一 个 假设 : 包含 假 画 像 的 艇 相对 紧凑 。 这 种 
方法 对 于 相对 明显 的 攻击 的 探测 效果 很 好 ， 但 不 一 定 适用 于 微小 的 攻击 。 

更 简单 的 方法 仅 使 用 主 成 分 分 析 (PCA)[425] 。 其 基本 思想 是 假 用 户 之 间 的 协 方差 很 
大 。 另 一 方面 ， 当 用 户 被 视 为 维度 时 ， 虚 假 用 户 经 常 与 其 他 用 户 展现 非常 低 的 协 方差 。 那 
么 如 何 利 用 PCA 识别 出 那些 彼此 之 间 高 度 关联 ， 但 与 正常 用 户 不 相关 联 的 维度 呢 ? 这 个 
问题 与 PCA 中 的 变量 选择 有 关 [285] 。 让 我 们 来 看 看 将 用 户 视 为 维度 的 评分 矩阵 的 转 置 。 
根据 主 成 分 分 析 中 的 变量 选择 理论 '“* 耻 ， 这 个 问题 相当 于 在 小 的 特征 向 量 中 找到 具有 小 系 
数 的 维度 〈 在 转 置 的 评分 矩阵 中 的 用 户 ) 。 这 样 的 维度 〈 用 户 ) 可 能 是 假 画像 。 

首先 将 评分 矩阵 归 一 化 为 零 均 值 和 单位 标准 偏差 ， 然 后 计算 其 转 置 的 协 方差 矩阵 。 计 
算 该 矩阵 的 最 小 特征 向 量 。 选 择 在 特征 向 量 中 具有 小 贡献 (ARO) 的 那些 维度 (用户 )。 
在 [427] 中 讨论 了 一 种 稍微 强化 的 方法 。 在 这 种 情况 下 ， 识 别 top (最小) 3 一 5 个 特征 向 
量 ， 而 不 是 仅 使 用 最 小 特征 向 量 。 使 用 这 些 特征 向 量 的 贡献 的 总 和 以 便 确 定 垃圾 邮件 用 户 。 

另 一 种 检测 群体 虚假 画像 的 算法 是 UnRAP010] 。 在 UnRAP 算法 中 ， 使 用 了 称 为 Ha 
分 数 的 度量 。 该 度量 源 于 生物 信息 学 领域 ,被 应 用 于 基因 簇 的 双 聚 类 的 上 下 文中 。 $ pi 
为 用 户 i 的 平均 评分 ,v; 为 物品 7 的 平均 评分 ，y 为 所 有 评分 的 平均 值 ，I; 为 被 用 户 i 评 
分 过 的 物品 集合 。 然 后 ， 用 户 iW A, 分 数 定义 如 下 : 


Dayar (rj = mi FY? 
(rg — mh)” 

H, 分 数值 越 大 说 明 越 有 可 能 是 攻击 画像 。 基 本 思想 是 虚假 画像 在 评分 值 中 是 自 相 似 的 ， 

但 是 它们 与 其 他 正常 用 户 往往 不 相似 。 因 为 He 分 子 和 分 母 的 构造 方式 ， 所 以 该 信息 可 以 

通过 H, 分 数 来 捕获 。 当 评分 随机 时 ， 互 。 分 数 将 接近 1。 算 法 首先 确定 具有 Hoe 分数 最 大 

的 前 10 个 用 户 。 然 后 使 用 该 组 用 户 来 识别 偏离 用 户 评分 平均 值 最 大 的 目标 物品 。 

对 目标 物品 的 标识 为 算法 的 下 一 阶段 做 了 准备 。 算 法 接 下 来 会 放宽 识别 虚假 用 户 的 条 
件 ， 多 于 10 个 用 户 简 档 会 被 认为 是 虚假 画像 的 候选 。 然 而 ， 这 样 的 候选 将 包含 许多 假 阳 
性 。UnRAP 算法 还 讨论 了 去 除 那些 没有 对 目标 物品 进行 评分 或 者 已 经 在 “错误 ”方向 上 
对 目标 物品 进行 评分 的 用 户 的 方法 。 关 于 如 何 使 用 滑动 窗口 方法 计算 更 大 的 候选 集合 的 细 
节 ， 请 参考 [110]. 

12. 4. 2.2 在线 方法 

这 些 方法 都 是 在 推荐 时 检测 虚假 画像 。 考 虑 如 下 场景 : 有 一 个 基于 用 户 的 近邻 算法 被 
用 于 推荐 。 其 基本 思想 是 从 活动 用 户 的 邻居 创建 两 个 聚 类 中 。 注 意 ， 攻 击 者 的 主要 目标 
是 推送 或 者 贬低 特定 的 物品 。 因 此 ， 如 果 两 个 类 中 的 活动 物品 的 平均 评分 存在 足够 大 的 差 
异 ， 则 假定 发 生 了 攻击 。 其 中 方差 小 的 类 被 认定 为 攻击 群集 。 该 类 的 所 有 画像 将 被 删除 。 
这 种 检测 方法 的 优点 是 在 创建 近邻 时 能 够 直接 被 集成 到 抵抗 攻击 的 推荐 算法 中 。 因 此 ， 这 
个 方法 不 仅仅 是 一 种 删除 虚假 画像 的 方法 ， 还 是 一 种 能 提供 更 可 靠 的 推荐 的 在 线 方法 。 如 
果 需 要 ， 可 以 在 系统 的 操作 期 间 递增 地 移 除 虚假 画像 。 


12.5 健壮 推荐 设计 策略 


多 种 策略 可 以 用 来 以 更 健壮 的 方式 构造 推荐 系统 。 这 些 策略 从 使 用 更 好 的 推荐 系统 设 
计 一 直到 使 用 更 好 的 算法 设计 。 在 下 面 的 章节 中 ， 我 们 会 对 这 些 策略 的 使 用 进行 讨论 。 


H;i) = (12-10) 
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12.5.1 FA CAPTCHA 防止 自动 攻击 


值得 注意 的 是 ， 它 需要 大 量 的 虚假 画像 才能 使 得 预测 评分 有 显著 变化 。 要 启动 攻击 需 
要 3%% 一 5%% 的 可 信 画 像 是 虚假 画像 ， 这 对 攻击 者 来 说 并 不 现实 。 例 如 ， 考 虑 包含 超过 一 百 
万 个 真实 用 户 的 评分 矩阵 。 

在 这 种 情况 下 ， 可 能 需要 多 达 50 000 个 虚假 画像 。 手 动 插入 这 么 多 虚假 画像 是 很 
困难 的 。 因 此 ， 攻 击 者 经 常 使 用 自动 化 系统 与 评分 系统 的 Web 界面 交互 ， 并 插入 伪造 
画像 。 

如 何 检 测 这 种 自动 攻击 ? CAPTCHA 被 设计 569] 为 在 Web 交互 的 上 下 文中 描述 人 和 
机 器 之 间 的 差异 。 首 字母 缩 略 词 CAPTCHA 代表 “Completely Automated Public Turing 
test to tell Computers and Humans Apart” (完全 自动 
的 公开 图 灵 测 试 来 区 分 人 和 机 器 ) 。 基 本 思想 是 给 人 提 
供 扭曲 的 文本 ， 这 对 于 机 器 来 说 很 难 解密 ， 但 仍然 可 
以 被 人 阅读 。 为 了 进一步 交互 ， 需 要 将 所 识别 的 文本 
输入 Web 界面 中 。CAPTCHA 的 示例 如 图 12-4 所 示 。 — 
推荐 系统 可 以 提示 CAPTCHA 以 允许 评分 的 输入 ， pg 124 HAT CAPTCHA Che // 


别 是 当 从 相同 的 IP 地 址 输入 大 量 的 评分 时 。 PE el Bayh 





12.5.2 使 用 社交 信任 


前 一 章 回顾 了 在 推荐 系统 的 上 下 文中 使 用 社交 信任 的 方法 。 在 这 些 方 法 中 ， 参 与 者 之 
间 的 社交 信任 被 用 于 影响 评分 。 例 如 ， 用 户 可 以 基于 他 们 对 其 他 用 户 的 评价 的 经 验 来 指定 
信任 关系 。 然 后 ， 这 些 信 任 关系 用 于 提供 更 可 靠 的 建议 。 这 样 的 方法 能 够 降低 攻击 的 有 效 
性 ， 因 为 用 户 不 可 能 指定 对 虚假 画像 的 信任 关系 ， 这 是 相当 勉强 的 。 第 11 章 中 详细 讨论 
了 如 何 使 用 社交 信任 来 获得 更 有 效 的 推荐 。 

[502, 503] 中 的 工作 提出 了 一 种 称 为 影响 限制 器 的 算法 来 构建 可 信赖 的 推荐 系统 。 
每 个 用 户 信 誉 的 全 局 度量 值 被 用 于 推荐 过 程 。 即 在 做 推荐 时 ， 对 每 个 用 户 按照 她 的 信誉 分 
数 进行 加 权 。 信 誉 分 数 本 身 是 基于 用 户 对 她 近邻 的 评分 预测 的 精确 性 而 学 习 得 到 的 。 该 工 
作 给 出 了 负面 攻击 的 理论 界限 。 


12.5.3 设计 健壮 的 推荐 算法 


从 本 章 的 讨论 中 可 以 看 出 ， 不 同 的 算法 对 攻击 的 敏感 水 平 不 同 。 例 如 ， 基 于 用 户 的 算 
法 通常 比 基 于 物品 的 算法 更 容易 受到 攻击 。 因 此 ， 有 许多 算法 已 经 专门 设计 为 抵抗 攻击 。 
本 节 将 对 这 些 算 法 进行 讨论 。 

12.5.3.1 在 近邻 方法 中 包含 聚 类 

在 [446] 中 已 经 显示 ， 如 何在 基于 近邻 的 方法 的 上 下 文中 使 用 聚 类 。 这 项 工作 使 用 
PLSA 和 有 均值 技术 对 用 户 画 像 进行 聚 类 。 对 每 个 类 创建 一 个 聚集 画像 。 聚 集 画 像 是 基于 
段 中 每 个 物品 的 平均 评分 。 然 后 ， 使 用 类 似 于 基于 用 户 的 协同 过 滤 的 方法 ， 不 同 之 处 在 于 
使 用 聚集 画像 而 不 是 单个 用 户 画 像 。 对 于 每 个 预测 ， 使 用 与 目标 用 户 最 接近 的 聚集 画像 来 
进行 推荐 。 在 [446] 中 显示 ， 基 于 聚 类 的 方法 提供 了 比 vanilla 最 近邻 方法 更 健壮 的 结 
果 。 其 健壮 性 的 主要 原因 是 聚 类 过 程 通常 是 将 画像 都 映射 到 一 个 徐 ， 从 而 限制 了 单个 画像 
对 预测 的 影响 。 
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12. 5. 3.2 在 推荐 时 检测 虚假 画像 

在 前 面 讨论 的 攻击 检测 算法 也 可 以 用 于 产生 健壮 性 的 建议 ， 特 别 是 在 推荐 时 进行 攻击 
检测 。 这 种 方法 在 12. 4. 2. 2 节 中 讨论 。 在 该 方法 中 ， 活 动用 户 的 近邻 被 划分 为 两 个 复 。 
当 活 动物 品 在 两 个 簇 中 的 平均 值 差 异 大 时 ,会 怀疑 发 生 了 攻击 。 最 自 相 似 〈 即 更 小 的 半 
径 ) 的 簇 被 认为 是 攻击 群体 。 然 后 删除 该 艇 的 画像 。 然 后 使 用 来 自 剩余 簇 的 画像 执行 推 
荐 。 这 种 方法 既 能 检测 攻击 又 能 产生 健壮 的 推荐 算法 。 

12. 5. 3.3 基于 关联 的 算法 

基于 规则 的 协同 过 滤 算 法 在 第 3 章 3. 3 节 中 讨论 。L522] 中 表明 ， 当 最 大 攻击 规模 小 
于 15% 时 ， 这 样 的 算法 对 于 均值 攻击 是 健壮 的 。 这 种 现象 的 原因 是 攻击 画像 通常 没有 足够 
的 支持 来 实施 攻击 。 然 而 这 类 算法 不 能 抵抗 分 段 攻击 。 

12. 5. 3. 4 健壮 的 矩阵 分 解 

对 于 攻击 ,和 矩阵 分 解 方 法 通常 更 加 具有 健壮 性 ， 因 为 它们 将 攻击 画像 当 作 了 噪声 。 在 
[424, 427] 中 讨论 了 如 何 使 用 PLSA 方法 来 检测 和 消除 攻击 。 注 意 ， 许 多 矩阵 分 解 推荐 
器 本 身 基 于 PLSA。 因 此 ， 如 果 在 中 间 步 骤 中 移 除 攻击 画像 并 且 概 率 参数 被 重新 归 一 化 ， 
则 它们 可 以 被 直接 用 于 推荐 。 

另 一 种 方法 [2 引 是 修改 用 于 矩阵 分 解 的 优化 函数 ， 以 使 其 对 于 攻击 更 加 健壮 。 在 矩阵 
分 解 中 ，m Xn 评分 矩阵 R 被 如 下 因子 分 解 为 用 户 因 子 和 物品 因子 : 

Ra UVT (12-11) 

XE U=(u,, Jf V= tn LR Oa aE 物品 的 预测 值 六 如 下 : 


= uo Vig (12-12) 


因此 ， 预 测 观察 到 的 物品 的 误差 由 ej =ry 一 请 给 出 。 如 第 3 章 所 讨论 的 ， 通 过 使 矩阵 尺 
Bi Resa Seah inthe ATAA Mg DA a ALATA I FW OIE 
ni (ay a 2S A he PR OK ah SS TG AR EE, ZEAE (residual matrix) 
(R—UV") 中 ， 攻 击 画像 常常 会 产生 绝对 值 |ej | 很 大 的 奇异 点 。 因 此 ， 如 果 简 单 地 使 用 
(R—UV") 中 已 观测 部 分 的 Frobenius 范 数 ， 虚 假 画 像 的 存在 将 显著 地 改变 用 户 因 子 和 物 
品 因子 。 一 个 自然 的 解决 方案 是 削弱 剩余 和 矩阵 中 具有 大 绝对 值 的 项 的 贡献 。 令 S VP oh 
阵 R 中 已 观测 到 的 项 的 集合 。 换 句 话 说 ,我 们 有 : 
S= {lis j)i:ry 是 已 观测 的 } (12= 13) 
如 第 3 章 所 讨论 的 ， 和 矩阵 分 解 的 目标 函数 定义 如 下 : 


m k k 
Minimize J => J it Ut +4 Dv 
为 了 减弱 ei 的 绝对 值 很 大 的 项 的 影响 ,定义 了 一 组 新 的 误差 项 : 
fe 如 果 | es (A 
Fs siai 如 果 |es |> A 
这 里 A 是 用 户 定义 的 阐 值 ， 其 定义 考虑 了 绝对 值 变 大 时 的 情况 。f(|e; DÆ le; | 的 阻尼 
( 即 亚 线性 ) 函数 并 满足 f(A)= 二 A。 这 个 条 件 确保 当 ef 范围 在 士 A 时 性 是 一 个 连续 函数 。 
阻尼 确保 大 的 误差 值 不 会 给 出 过 大 的 重要 性 。 这 种 阻尼 函数 的 示例 如 下 : 
Foead SA ey (12-15) 
这 种 类 型 的 阻尼 函数 已 在 [428] 中 使 用 。 然 后 在 健壮 矩阵 分 解 的 目标 函数 中 ， 用 调整 值 
cj EMRE ej. WTF: 


(12-14) 
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Minimize Jrobust Fah Behe À S LA > 


pES j=ls= 
在 [426] 中 描述 的 迭代 重 加 权 最 小 二 etn lot py 我 们 描述 一 个 简 
化 的 算法 。 第 一 步 是 计算 关于 每 个 决策 变量 的 目标 函数 J 的 梯度 : 














robus' 
ERTS 3 as Fauan VEE thm), Yg é (lk 
Ou i inches Oia 
al robust S Pi e J Ja "i 
S 7, Poia avgas Wi E ilen}, Yq € (lek) 





注意 ， 上 述 梯度 包含 相对 于 决策 变量 的 多 个 偏 导数 。 3 的 值 计算 如 下 ， 








ag _ 2 eey (— vjq) wA le; ISA 
OU ig fc o wK\e;|>A 
这 里 ， 符 号 函数 对 正 数 值 取 十 1， 对 负数 取 一 1。 导 数 的 逐个 说 明 可 以 合并 为 以 下 简化 形式 : 
oa Ae nar 
a = 2+min{|e,; |, A} + sign(e;) + (— ug) 


ig 
值得 注意 的 是 ， 当 误差 大 于 A 时 ， 梯 度 被 衰减 。 梯 度 的 这 种 阻尼 直接 使 得 该 方法 对 于 评分 
和 矩阵 中 的 大 误差 更 加 健壮 。 类 似 地 ， 我 们 可 以 如 下 计算 关于 vw 的 偏 导数 : 

ae Že eg (— uy) 如 果 |e; | 过 A 

OU jg -| A+ sign(e; (—u,) wRle;|>A 
如 前 所 述 ， 可 以 将 该 导数 合并 如 下 : 

ag == 

OU jg 
现在 可 以 得 到 如 下 的 更 新 步 又， 其 需要 对 每 个 用 户 i 和 每 个 物品 j 执行 如 下 更 新 以 收 伍 ， 

tig Huy tal >) min(le; |, A} sign(e;) © vg —A* ug) Wis Yg E (lk) 
j: ES 


Vjq Ev ta( >) minl |e; |, A) + sign(ey) + uy —A* vg) Vi, Va E (1k) 


j: DES 
上 述 步 骤 对 应 于 全 局 更 新 。 这 些 更 新 可 以 在 梯度 下 降 的 算法 框架 内 执行 〈 参 见 第 3 章 的 
图 3-8)。 
还 可 以 针对 各 个 物品 中 的 错误 来 隔离 梯度 ， 并 且 以 随机 顺序 处 理 它们 。 这 种 方法 对 应 
于 随机 梯度 下 降 。 对 于 每 个 观察 到 的 物品 (i， 站 EES， 执行 以 下 更 新 步 又 : 








= 2. min{ |e; |> + sign(e; ) * (— ug) 





à 5 a . a 
Uig Sui +a(min¢ le; |> A} « sign(e;) + wi 一 m ) Vg € {lk} 


A*v 
Vig =Vjq +a(min¢ | es | » Ade sign(e; ) * ui 一 vg E {lek} 


nitem 
nj 


RE, aS" RRA HOMME. na 表示 物品 j 的 已 观测 评分 的 数量 。 对 评 
分 矩阵 中 的 已 观测 项 以 随机 顺序 循环 ， 执 行 前 述 更 新 步骤 ， 直 到 收敛 为 止 。 这 是 基于 图 3- 9 
(参见 第 3 章 ) 的 框架 ,其 具有 上 述 更 新 步 又 的 修改 。 当 误差 大 于 A 时 ， 这 些 更 新 步骤 仅 在 
覆盖 梯度 分 量 的 绝对 值 方面 不 同 于 传统 的 矩阵 分 解 。 这 与 健壮 矩阵 分 解 方法 的 所 述 目标 一 
致 ， 其 中 大 误差 可 能 是 评分 矩阵 结构 中 的 异常 的 结果 。 这 些 异 常 可 能 是 攻击 。 

重要 的 是 要 注意 ， 该 方法 将 仅 在 攻击 画像 的 数量 小 于 正确 物品 时 有 效 。 另 一 方面 ， 如 
果 攻 击 画 像 的 数量 非常 大 ， 则 它 将 显著 影响 因子 和 矩阵， 并 且 阻 尼 方 法 将 不 起 作用 。 健 壮 拢 
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阵 分 解 和 PCA 对 于 恢复 损坏 矩阵 结构 已 有 悠久 的 历史 。 请 参阅 12.7 节 ， 以 获取 此 领域 工 
作 的 指南 。 

直观 地 ， 健 壮 矩 阵 分 解 的 概念 与 健壮 回归 的 概念 没有 很 大 不 同 ， 健 壮 回归 通常 用 于 减 
少 异 常 值 在 回归 模型 中 的 影响 512 。 在 这 种 情况 下 ， 以 类 似 于 健壮 矩阵 分 解 的 方式 修改 最 
小 二 乘 优化 函数 。 事 实 上 ， 健 壮 回归 模型 可 以 用 来 使 第 2 章 2. 6 节 中 的 许多 协同 过 滤 方 法 
更 加 健壮 。 虽 然 在 这 些 方法 上 没有 实验 结果 ， 但 仍 可 以 合理 地 认为 健壮 回归 建 模 方法 是 抵 
抗 攻击 的 。 这 将 是 该 领域 未 来 研究 的 一 个 有 趣 的 方向 。 


12.6. ahia 


欺诈 (shilling) 攻击 可 以 显著 降低 推荐 系统 的 有 效 性 ， 因 为 虚假 的 画像 会 扭曲 向 真实 
用 户 提 供 的 建议 。 各 种 推送 攻击 方法 被 设计 出 来 试图 影响 推荐 系统 。 其 中 一 些 包括 随机 攻 
击 、 均 值 攻击 、bandwagon 攻击 和 分 段 攻 击 。 存 在 男 一 组 策略 ， 例 如 反 向 bandwagon 攻 
击 和 爱 / 异 攻击， 被 设计 为 贬低 物品 〈 降 低 其 在 系统 中 的 评分 )。 核 攻击 通常 比 推送 攻击 更 
容易 执行 。 检 测 攻 击 的 方法 使 用 各 种 常见 的 攻击 特征 。 这 些 特 征 包 括 注 人 画像 的 自 相 似 性 
以 及 这 些 画像 与 其 他 用 户 画像 的 差异 。 检 测 攻 击 的 方法 可 用 于 设计 健壮 的 推荐 系统 。 许 多 
强大 的 推荐 系统 直接 将 虚假 画像 去 除 过 程 并 人 推荐 过 程 。 还 有 一 些 其 他 技术 使 用 可 信赖 的 
推荐 系统 或 增加 虚假 画像 注入 的 成 本 。 强 大 的 推荐 系统 的 设计 是 攻击 者 和 推荐 系统 设计 者 
之 间 永 久 的 游戏 ， 双 方 发 展 出 越 来 越 聪 明 的 措施 和 对 策 。 


12.7 相关 工作 


关于 欺诈 攻击 和 对 抗 攻 击 的 推荐 系统 的 研究 可 见 [119，236]。[424] 研究 了 协同 过 
滤 的 攻击 阻抗 方法 。[394] 提出 了 制造 虚假 用 户 画 像 攻击 推荐 系统 的 算法 。 一 些 最 早 的 方 
法 ， 如 均值 攻击 和 随机 攻击 ， 在 [122，329] 中 被 提出 和 评估 。 各 种 推荐 算法 的 差分 行为 
在 [329] 中 讨论 。 例 如 ， 研 究 结果 显示 物品 -物品 推荐 算法 比 用 户 - 用 户 推荐 算法 更 能 抵 
抗 攻击 。 相 关 的 问题 是 要 求 用 户 对 物品 重新 评分 以 减少 推荐 系统 中 的 噪声 [44]。 然 而 ， 
嘲 杂 评分 与 虚假 画像 并 不 相同 ， 它 并 非 故意 地 误导 推荐 系统 。 因 此 ，[44] 解决 了 对 抗 攻 
击 的 另 一 种 情况 。 

bandwagon 攻击 有 效 地 用 于 用 户 一 用 户 协作 过 滤 算 法 ,但 是 对 于 基于 物品 的 算法 不 是 
那么 有 效 [248'329'445] | bandwagon 攻击 的 主要 优点 是 它 几 乎 与 均值 攻击 方法 一 样 有 效 ， 但 
它 需 要 的 知识 少 得 多 [2 。[395] 中 提供 了 关于 流行 物品 攻击 的 讨论 ， 以 及 对 预测 偏 移 量 
的 解释 。 这 种 攻击 的 有 效 性 也 在 [396] 中 研究 。 分 段 攻击 在 [445] 中 提出 ， 并 且 它 被 证 
明 对 物品 间 协 同 过 滤 算 法 有 效 。 分 段 攻 击 是 对 收藏 项 攻击 的 泛 化 2 。 在 [444] 中 提出 
了 两 个 核 攻击 模型 ， 即 反 向 攻击 和 爱 / 惜 攻击 。 在 群体 欺诈 攻击 中 63 ， 几 个 人 一 起 合作 
推送 或 贬低 一 个 物品 。 

大 多 数 上 述 攻 击 系统 是 针对 显 式 评 分 的 情况 而 设计 的 。 用 于 隐 式 评分 的 攻击 系统 需要 
注入 假 动 作 ， 而 不 是 伪造 画像 。 这 样 的 系统 可 以 用 模拟 Web 浏览 会 话 的 自动 爬行 器 来 实 
现 。 疏 虫 访问 精 选 的 网 页 ， 以 便 有 效 地 推送 目标 物品 。 这 种 攻击 的 示例 是 流行 页 面 攻击 ， 
其 中 目标 页 面 与 其 他 流行 页 面 一 起 被 候 取 。 这 种 攻击 可 以 被 视 为 bandwagon 攻击 的 隐 式 
版 本 。 有 关 这 些 策略 的 讨论 ， 请 参见 [79]. 

用 于 个 人 / 单 画 像 攻击 检测 的 无 监督 算法 在 [158] 中 讨论 。 该 算法 基于 以 下 事实 : 对 
评分 具有 不 适当 影响 的 用 户 是 可 疑 的 。 该 方法 使 用 前 面 讨论 的 许多 度量 来 检测 有 影响 力 的 
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用 户 [3] 。 用 户 画 像 的 异常 大 量 评分 的 存在 也 可 以 被 认为 是 可 疑 的 [630] 。 这 些 方法 与 RD- 
MA 度量 结合 用 于 无 监督 攻击 检测 。 这 些 特征 进一步 与 监督 的 攻击 检测 的 其 他 特征 组 
Ad, Æ [668] 中 提出 了 一 种 攻击 检测 算法 ， 用 于 监控 评分 随时 间 的 变化 。 这 种 方法 
的 基本 思想 是 ， 突 然 的 虚假 等 级 画像 注入 通常 导致 额定 值 随 时 间 的 异常 变化 ， 因 此 它们 可 
以 用 时 间 序 列 监视 来 检测 。 相 关 方 法 [79 使 用 异常 检测 来 检测 攻击 。 在 [572] 中 讨论 了 用 
于 检测 群体 欺诈 攻击 的 方法 。 在 该 方法 中 ， 如 果 一 个 用 户 群 体 对 许多 相同 的 物品 进行 了 不 
正常 的 评分 ， 那么 该 群体 被 认为 是 虚假 画像 。 

多 种 用 于 检测 群体 攻击 的 方法 D1%,425,427] 被 提出 。[425] 使 用 主 成 分 分 析 (PCA) 检 
测 垃圾 邮件 。[427] 中 的 工作 讨论 了 用 PLSA 聚 类 对 组 攻击 进行 检测 。 [427] 中 给 出 了 
[425] 中 讨论 的 PCA 方法 的 增强 版 。[110] 中 讨论 了 UnRAP 算法 。 

可 以 设计 各 种 方法 来 构建 抗 攻击 推荐 系统 。CAPTCHAEs19] 给 出 了 区 分 人 类 和 计算 机 
的 方法 。CAPTCHA 可 以 增加 将 虚假 画像 注入 系统 的 成 本 。 社 交 信 任 的 概念 也 可 以 用 来 
降低 攻击 的 有 效 性 。 这 样 的 系统 在 第 11 章 中 详细 讨论 。 在 L502, 503] 中 提出 了 影响 限 
制 器 的 概念 以 构建 抗 攻击 推荐 算法 。 [397] 讨论 了 将 攻击 检测 集成 到 抗 攻 击 推荐 算法 中 。 
在 [522] 中 讨论 了 使 用 关联 方法 建立 健壮 算法 。 在 [424，426-428，609] 中 讨论 了 抵抗 
攻击 的 推荐 器 系统 的 各 种 健壮 的 矩阵 分 解 方法 。 在 传统 机 器 学 习 文 献 中 也 提出 了 健壮 
PCA 和 和 矩阵 分 解 的 方法 ， 用 于 恢复 损坏 数据 的 低 秩 结构 D32] 。 为 了 减少 异常 值 对 推荐 过 程 
的 影响 ， 这 一 领域 未 来 的 研究 方向 可 能 还 会 有 健壮 回归 [532] 。 

抗 攻 击 推荐 系统 的 挑战 之 一 是 攻击 者 继续 设计 更 复杂 的 方法 来 攻击 推荐 系统 。 例 如 ， 
攻击 者 可 能 会 利用 检测 虚假 画像 的 条 件 来 实施 攻击 5897] ， 使 用 模糊 方法 来 实施 攻击 [5630 或 
者 针对 特定 协同 过 滤 模 型 设计 攻击 方法 [2223] 。 因 此 ， 在 攻击 者 和 推荐 系统 设计 者 之 间 的 永 
久 游 戏 中 ， 抵 抗 攻击 的 研究 需要 跟 上 攻击 算法 的 发 展 。 


12.8 习题 


1 对 于 本 章 中 讨论 的 每 种 攻击 方法 ， 编 写 一 个 程序 来 实现 它 。 

2. 假设 你 知道 你 的 推荐 系统 已 经 受到 了 均值 攻击 。 讨 论 一 种 删除 虚假 画像 的 方法 。 

3. 假设 你 对 推荐 系统 中 的 评分 有 完整 的 知识 。 换 名 话说， 推荐 系统 中 的 所 有 评分 都 可 以 使 用 。 显 示 如 何 
设计 一 个 很 难 被 检测 的 攻击 。[ 这 个 问题 的 答案 不 是 唯一 的 。] 

4. 实现 检测 攻击 的 在 线 近 邻 方法 ( 见 12. 4. 2. 2 节 ) 。 如 果 需 要 请 参阅 【397] 。 
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过 去 50 年 ， 科 学 的 发 展 已 经 超过 之 前 2000 年 的 发 展 ， 其 赋予 了 人 类 比 自然 更 强大 的 
力量 ， 远 超过 了 古人 所 描述 的 上 帝 的 力量 。 
——John Boyd Orr 


13.1 51 


推荐 系统 经 常会 被 用 于 许多 特定 的 环境 中 ， 这 在 本 书 前 面 的 章节 中 并 没有 涉及 。 许 多 
情况 下 ， 推 荐 的 环境 可 能 有 多 个 用 户 或 者 多 个 评估 标准 。 例 如 ， 考 虑 一 组 游客 希望 共同 度 
假 的 场景 。 显 然 ， 他 们 想 要 获得 满足 小 组 中 所 有 成 员 兴 趣 的 推荐 。 在 其 他 一 些 场景 中 ， 用 
户 可 能 使 用 多 个 评估 标准 对 物品 进行 评分 。 这 些 变化 的 推荐 问题 有 时 会 使 得 预测 变 得 更 有 
挑战 性 。 本 章 我 们 将 学 习 推 荐 系统 的 如 下 高 级 变化 : 

1) 排名 学 习 : 在 前 面 章 节 中 讨论 的 大 部 分 模型 都 将 推荐 问题 视 为 一 个 最 小 化 平方 误 
差 的 排名 预测 问题 。 然 而 ， 在 真实 环境 中 ， 只 有 前 & 个 推荐 会 呈现 给 用 户 ， 而 其 余 的 推荐 
都 被 忽略 了 。 因 此 ， 我 们 可 以 直接 优化 基于 排名 的 评估 标准 ， 比 如 平均 倒数 排名 或 者 在 受 
试 者 操作 特征 曲线 下 的 区 域 。 

2) 利用 多 劈 赌博 机 的 在 线 学 习 : 在 许多 推荐 领域 ， 比 如 推荐 新 文章 ， 冷 启动 问题 无 处 不 
在 。 新 的 文章 和 故事 不 断 出 现 ， 并 且 不 同 算法 的 功效 也 随时 间 发 生变 化 。 在 这 种 情况 下 ， 当 
新 的 数据 被 接收 到 时 需要 不 断 地 探索 当前 可 能 的 选择 空间 。 同 时 ， 运 用 学 习 到 的 数据 ， 依 据 
转化 率 来 最 优化 利润 。 多 臂 赌 博 机 算法 能 帮助 系统 在 探索 和 利用 之 间 进 行 有 效 的 权衡 。 

3) 组 推荐 系统 : 在 许多 环境 中 ， 推 荐 可 能 不 是 针对 个 人 ， 而 是 面向 用 户 构 成 的 小 组 。 
这 样 的 推荐 通常 与 用 户 组 的 行为 有 关 。 比 如 ， 小 组 观看 的 电影 ， 小 组 购买 的 旅行 服务 ， 小 
组 播放 的 音乐 或 者 观看 的 电视 节目 ， 等 等 。 在 这 些 情况 下 ， 用 户 可 能 有 着 不 同 的 品味 和 兴 
趣 ， 这 都 反映 在 他 们 不 同 的 选择 上 。 组 推荐 系统 为 了 做 出 有 意义 的 推荐 ， 需 要 对 这 些 不 同 
的 兴趣 进行 折 中 。 

4) 多 标准 推荐 系统 : 在 多 标准 系统 中 ， 一 个 用 户 可 能 依据 多 个 不 同 的 标准 来 评分 。 例 
如 ， 一 个 用 户 会 根据 情节 、 音 乐 和 特效 等 来 评价 电影 。 这 类 技术 常常 通过 对 不 同 的 标准 构 
建 评分 向 量 来 对 用 户 效 用 进行 建 模 从 而 提供 推荐 。[271，410] 证 明了 一 些 组 推荐 系统 的 
方法 也 可 以 被 用 于 多 标准 推荐 系统 。 然 而 ， 这 两 个 主题 通常 被 认为 是 不 同 的 ， 因 为 在 推荐 
过 程 中 它们 所 强调 的 方面 不 同 。 

D 推荐 系统 中 的 主动 学 习 : 主动 学 习 是 一 个 著名 的 技术 ， 在 分 类 中 它 被 用 于 获取 训 
练 样本 的 标注 ， 使 得 分 类 的 精确 性 最 大 化 。 获 取 标 注 的 代价 一 般 是 昂贵 的 ， 因 此 必须 谨慎 
地 选择 训练 数据 ， 从 而 在 开支 预算 下 能 最 大 化 分 类 的 精确 性 。 由 于 推荐 问题 可 以 视 为 分 类 
问题 的 泛 化 ， 主 动 学 习 的 方法 也 可 以 推广 到 推荐 系统 上 。 在 给 定 开支 预算 下 ， 主 动 学 习 提 
供 了 一 种 获取 评分 的 方法 来 最 大 化 预测 精确 性 。 

6) 推荐 系统 中 的 隐私 保护 问题 : 推荐 系统 十 分 依赖 于 用 户 提供 的 个 人 兴趣 的 信息 。 
这 种 信息 是 非常 敏感 的 ， 因 为 它 可 能 会 暴露 政治 观点 、 性 取向 ， 等 等 。 因 此 ， 开 发 保护 隐 
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私 的 推荐 过 程 是 至 关 重 要 的 。 如 果 隐 私有 公开 泄露 的 风险 ， 评 分 数据 的 所 有 者 必定 不 愿 公 
开 它 。 一 个 典型 的 案例 就 是 Netflix 大 奖 赛事 件 ， 这 个 比赛 就 是 由 于 隐私 问题 而 没有 继续 
tT A 

除了 上 述 主题 以 外 ， 本 章 还 将 学 习 推荐 系统 在 许多 领域 的 应 用 ， 比 如 新 闻 推 荐 、 计 算 
广告 和 互惠 推荐 系统 。 学 习 这 些 主题 是 为 了 能 够 更 好 地 理解 前 面 章 节 中 讨论 的 方法 是 如 何 
应 用 到 不 同 的 领域 之 中 的 。 有 些 时 候 ， 这些 章节 中 的 方法 不 能 直接 应 用 ， 因 此 必须 有 新 的 

412| 方法 提出 。 所 以 ,理解 各 种 方法 在 当前 环境 中 的 局 限 性 是 本 章 的 目标 之 一 。 

本 章 组 织 结构 如 下 。13. 2 节 将 介绍 排名 学 习 中 的 问题 。13. 3 节 介 绍 多 臂 赌 博 机 算法 。 
各 种 组 推荐 系统 的 设计 技术 将 在 13. 4 节 讨 论 。13. 5 节 讨 论 多 标准 推荐 系统 。13. 6 节 介 绍 
主动 学 习 方 法 。13. 7 节 讨 论 协同 过 滤 中 的 隐私 问题 。13. 8 节 介 绍 许多 有 趣 的 应 用 领域 。 
13. 9 节 是 本 章 小 结 。 


13.2 排名 学 习 


在 前 面 章 中 讨论 的 大 部 分 模型 都 将 推荐 问题 视 为 最 小 化 平方 误差 的 评分 预测 问题 。 而 
实际 上 ， 推 荐 系统 很 少将 所 有 的 评分 呈现 给 用 户 。 一 般 只 有 前 个 物品 的 集合 会 以 排名 表 
ea 

那些 不 包含 在 列表 中 的 物品 的 预测 值 与 用 户 观 点 无 关 。 很 多 时 候 ， 对 排名 预测 值 的 优 
化 可 能 并 不 会 给 用 户 提供 最 好 的 推荐 列表 。 例 如 ， 如 果 所 有 低 排 名 的 评分 都 被 十 分 精准 地 
预测 ， 然 而 高 排名 等 级 有 明显 的 错误 ， 这 时 ， 解 决 方案 就 不 能 给 用 户 提供 高 质量 的 推荐 列 
表 。 另 一 方面 ， 因 为 排名 低 的 物品 也 被 给 予 了 和 排名 高 的 物品 同等 的 重要 性 ， 所 以 基于 预 
测 的 目标 函数 可 能 会 报告 这 是 个 高 质量 的 推荐 。 该 问题 的 产生 是 由 于 基于 预测 的 目标 函数 
方法 不 能 很 好 地 满足 用 户 的 体验 。 

推荐 系统 中 经 典 的 优化 模型 PURER) 的 目标 函数 是 总 平方 误差 。 这 种 类 型 的 
目标 函数 是 RMSE 测度 ， 它 被 用 于 评估 推荐 系统 。 从 算法 角度 来 说 ， 这 种 优化 很 容易 。 
这 也 是 推荐 系统 中 采用 基于 预测 的 目标 函数 的 原因 。 然 而 ， 除 此 以 外 ， 正 如 在 第 7 章 中 讨 
论 的 推荐 系统 评估 问题 ， 还 有 许多 以 排名 为 中 心 的 度量 被 用 于 评估 推荐 系统 。 这 些 以 排名 
为 中 心 的 度量 也 可 以 在 协同 过 滤 (或 者 基于 内 容 ) 的 模型 中 直接 被 优化 。 正 如 在 评估 推荐 
系统 的 章节 (第 7 章 ) 中 讨论 的 ， 有 两 种 主要 类 型 的 排名 度量 : 

1) 全 局 排名 度量 : 这 些 度量 对 所 有 物品 构成 的 排名 列表 进行 评价 。 比 如 ， 包 括 Ken- 
dall 系数 、Spearman 系数 以 及 受 试 者 操作 特征 (ROC) 曲线 下 面 的 区 域 。 

2) 不 稳定 的 排名 (top-heavy ranking) 度量 : 这 些 是 典型 的 基于 效用 的 度量 ， 排 名 靠 
前 的 物品 被 给 予 了 更 高 的 权重 。 这 种 度量 的 例子 包括 归 一 化 累计 折扣 收益 (NDCG) 和 平 
均 倒 数 排名 (MRR)。 这 种 度量 对 于 终端 用 户 来 说 更 实际 ， 因 为 低 排名 物品 被 忽略 了 ， 这 
些 物品 在 推荐 列表 中 对 于 终端 用 户 而 言 是 不 可 见 的 。 

有 许多 基于 排名 的 度量 用 于 评估 隐 式 数据 环境 。 相 应 地 ， 在 隐 式 数据 环境 下 也 有 许多 

基于 排名 的 学 习 方法 被 提出 。 

例如 ， 考虑 将 用 户 评分 矩阵 R 分 解 为 用 户 因 子 和 物品 因子 的 问题 ， 相 应 地 记 为 QU 和 
V。 通 过 对 一 个 特定 的 排名 目标 进行 优化 来 确定 U 和 V。 然 后 ,一 个 可 能 的 优化 问题 如 下 : 

最 优化 J 二 [定量 计算 RR 和 UVT 间 的 排名 的 目标 函数 ] 
满足 : 
U FV 上 的 约束 
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在 传统 的 矩阵 分 解 问题 中 ， 可 以 通过 添加 一 个 正则 项 来 提高 目标 函数 的 泛 化 能 力 。U 和 V 
上 的 限制 可 能 取决 于 特定 的 应 用 背景 。 例 如 ， 在 一 个 隐 式 反馈 问题 中 , EU 和 上 可 能 
会 施加 非 负 限制 。 优 化 目标 函数 可 能 来 自 一 些 基 于 排名 的 措施 ， 比 如 NDCG, MRR, 
AUC 等 。 和 矩阵 分 解 方法 的 一 个 最 优化 AUC 的 例子 在 [432] 中 进行 讨论 。 链 接 推荐 问题 
通过 基于 AUC 的 目标 得 以 解决 。 

基于 排名 的 目标 函数 往往 是 不 光滑 的 9， 现成 的 梯度 下 降 技术 很 难 用 来 进行 优化 。 预 
测评 分 的 微小 变化 会 导致 物品 的 排名 和 相应 的 目标 函数 的 改变 。 例 如 ， 考 虑 一 个 这 样 的 情 
景 ， 有 两 部 电影 《Nero》 和 《Gladiator》， 相 应 的 真实 的 评分 分 别 为 0 和 1， 预 测 的 评分 能 
够 被 转化 为 排名 ， 并 且 排 名 第 一 的 电影 会 被 报道 。 预 测评 分 的 各 种 组 合 的 RMSE 方法 如 
图 13-1a 所 示 ， 而 〈 非 光滑 ) 预测 排名 第 一 的 点 击 率 显示 在 图 13-1b 中 。 注 意 在 图 13- lb 
的 情况 下 ， 目 标 函 数 在 预测 评分 取 特 定 值 时 发 生 突 然 跳跃 。 在 基于 排名 的 目标 函数 中 ， 这 
种 非 光 滑 跳跃 或 微小 的 变化 不 只 是 在 预测 值 改变 时 发 生 ， 也 在 基本 模型 参数 改变 时 发 生 。 
例如 ， 在 和 矩阵 分 解 方法 中 ， 用 户 和 物品 因子 的 参数 的 微小 变化 ， 可 能 会 导致 基于 排名 的 目 
标 发 生 突然 的 跳跃 或 下 降 。 这 种 非 光滑 的 变化 ， 在 传统 的 度量 比如 平方 误差 (更 加 容易 优 
化 的 一 种 方法 ) 中 不 会 被 观察 到 。 例 如 ， 一 个 非 光滑 的 目标 函数 的 梯度 下 降 方法 在 确定 正 
确 的 下 降 方向 上 会 有 困难 ， 这 是 因为 目标 函数 的 重要 变化 可 能 发 生 在 参数 空间 中 的 不 可 微 
点 。 绕 过 这 个 问题 ， 基 本 目标 函数 的 光滑 近似 经 常 被 使 用 。 对 于 每 一 个 单独 的 基于 排名 的 
目标 函数 ， 一 个 特定 的 下 限 或 近似 被 用 来 设计 一 个 基本 的 目标 函数 的 光滑 变化 。 由 于 这 些 
光滑 的 变化 仅仅 是 近似 的 ， 算 法 的 质量 往往 取决 于 底层 的 近似 。 接 下 来 ， 我 们 提供 一 些 常 
见 的 基于 排名 的 方法 的 简短 讨论 。 
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al 平滑 RMSE 目 标 函 数 b) 非 平滑 命中 率 
图 13-1 排序 目标 函数 不 是 一 个 预测 评分 的 平滑 函数 〈 和 模型 参数 ) 


排名 的 传统 方法 是 先 预测 评分 和 损失 函数 ， 然 后 使 用 预测 评分 来 对 物品 进行 排名 。 我 
们 可 以 把 这 个 方法 作为 一 个 点 态 (pointwise) 方法 。 这 些 方法 没有 对 排名 进行 特别 优化 ， 
因为 它们 专注 于 预测 评分 的 值 。 一 个 特别 引 人 注 目的 工作 是 OrdRecbs59 ， 将 评分 视 为 顺序 
值 而 不 是 数值 。 有 两 个 主要 的 方法 专门 优化 以 排名 为 中 心 的 学 习 ， 它 们 被 称 为 成 对 的 或 列 
表 的 学 习 方 法 D28 。 接 下 来 ， 我 们 将 讨论 这 些 不 同类 型 的 学 习 方法 。 


13.2.1 成 对 排名 学 习 
在 成 对 排名 学 习 中 ， 将 用 户 提 供 了 偏好 的 “物品 对 ”作为 训练 数据 。 每 一 对 所 包含 的 
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信息 是 第 一 项 是 否 比 第 二 项 更 加 受用 户 喜 爱 ， 相 应 的 值 为 十 1 或 者 一 1。 例 如 ， 考 虑 一 个 
Ys: John 为 电影 《Terminator》《Alien》《Gladiator》 给 出 的 评分 分 别 为 4、3 和 5。 相 
应 地 ， 可 以 创建 以 下 训练 点 对 。 

John, Terminator, Alien, +1 

John, Terminator, Gladiator, —1 

John, Alien, Gladiator, —1 

对 于 Peter, Bob, Alice 等 人 也 可 以 创建 相似 的 点 对 ， 从 而 对 所 有 用 户 创 建 训 练 数据 。 
对 于 隐 式 反馈 的 数据 集 ， 可 以 将 未 观察 到 的 值 视 为 0。 有 了 这 个 训练 数据 ， 现 在 可 以 尝试 
学 习 相 关 的 物品 偏好 ， 如 下 所 示 : 

Alice, Terminator, Gladiator,? 

Bob, Terminator, Gladiator,? 

John, Nero, Cleopatra,? 

可 以 发 现 ， 这 个 转换 本 质 上 构建 一 个 二 元 分 类 问题 ， 并 且 这 个 学 习 方 法 试图 隐 式 地 减 
少 训练 数据 中 的 两 两 倒置 。 该 目标 与 肯 德 尔 排名 相关 系数 密切 相关 。 在 这 种 情况 下 ， 也 可 
以 优化 例如 AUC 等 其 他 测度 。 可 以 使 用 任何 现成 的 排名 分 类 方法 (如 排名 SVM) 学 习 一 
个 合适 的 排名 目标 。 其 主要 挑战 是 由 于 每 个 训练 示例 中 只 包含 形式 为 用户， 物品 1， 物 
品 2》 的 三 个 非 零 元 素 ， 因 此 其 数据 表示 会 非常 稀疏 。 注 意 ， 基 本 维度 可 能 包含 数 百 上 后 
个 用 户 和 物品 。 这 样 的 设置 特别 适合 于 分 解 机 (参见 第 8 章 8.5.2.1 节 )。 有 了 m 个 用 户 
和 nn 个 物品 ， 可 以 创建 一 个 p= 二 Cm 十 2，n) 维 的 三 进 制 表 示 xz1…zx。， 其 中 有 三 个 位 被 设置 
为 1， 其 余 被 设 为 0。 其 中 ，m 个 元 素 对 应 用 户 ，2n 个 元 素 对 应 物品 对 。 预 测 值 y(z) 要 人 么 
是 十 1， 要 么 是 一 1， 这 取决 于 第 一 个 物品 的 排名 是 否 高 于 第 二 个 物品 。 然 后 ， 公 式 (8-9) 
的 预测 函数 被 修改 为 逻辑 回归 中 的 形式 ， 


Ply(z) = 1) = (13-1) 


2 p p 
1+exp(—[g+ J br: +) 2) m maa; |) 
i=] 


i=17 三 寺 1 

模型 参数 g. bi Mo; 都 是 以 相同 的 方式 在 第 8 章 的 8. 5. 2. 1 节 中 被 定义 。 可 以 优化 对 数 似 然 
准则 ， 用 梯度 下 降 法 来 学 习 模 型 参数 。 分 解 机 也 提供 了 用 其 他 方式 来 做 特征 工程 的 灵活 
PEM] 。 例 如 ， 可 以 使 用 (ntn) 维 二 进 制 表示 zl…zm+as， 其 中 有 两 项 是 非 零 项 (对 应 于 用 
户 和 物品 的 组 合 ) ， 并 假设 y(z) 的 预测 等 于 评分 值 。 然 后 ， 可 以 利用 预测 对 (y(z)，y(zj;)) 
直接 优化 排名 目标 函数 ， 这 依赖 于 观测 数据 中 哪个 值 更 大 。 这 种 方法 与 前 一 个 方法 的 主要 
区 别 是 当前 的 方法 对 所 有 的 排名 对 (y(z;)，y(zj)) 进 行 优化 (不 论 z BEM Z; 对 应 相同 
的 用 户 )， 而 以 前 的 方法 不 允许 排名 对 中 对 应 不 同 的 用 户 。 

其 他 用 来 学 习 预 测 的 著名 的 模型 包括 贝 叶 斯 个 性 化 排序 模型 (BPR)[3] | Eigen Rank 
模型 57] 、pLPAL358] 和 CRL59] 。 其 中 许多 方法 都 对 目标 函数 使 用 了 基于 排名 的 测度 。 


13.2.2 列表 排名 学 习 


在 列表 排名 学 习 中 ， 整 个 列表 的 质量 通过 基于 排名 的 目标 函数 进行 评估 。 这 样 的 目标 
函数 的 例子 包括 归 一 化 累积 折扣 增益 (NDCG)、 平 均 倒数 排名 (MRR)， 等 等 。 可 以 把 一 
个 列表 排名 看 作 是 依赖 于 排名 度量 的 某 特定 目标 函数 下 的 物品 的 排列 。 因 此 ， 关 键 是 要 设 
计 出 一 个 可 以 直接 确定 排列 的 优化 模型 。 由 于 基于 排序 方法 的 自然 重要 性 ， 这 些 方法 通常 
更 关注 隐 式 反馈 和 矩阵。 列表 排名 方法 的 一 些 例子 如 下 : 
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1) CoFiRank: 此 方法 624'6251 是 使 用 结构 化 估计 方法 来 最 大 化 NDCG。 结 构 化 的 评估 
方法 被 设计 用 于 处 理 复杂 的 输出 ， 比 如 序列 。 可 以 把 列表 排名 方法 的 输出 看 作 一 种 结构 化 
的 输出 ， 因 为 列表 也 是 一 个 有 序 序列 。 其 想法 是 定义 一 个 列表 上 的 (而 非 单 个 点 ) 结构 化 
损失 函数 ， 其 最 优化 结果 产生 一 个 最 佳 的 排名 。 基 本 思想 是 ， 使 得 所 有 物品 上 的 预测 评 
分 的 排列 (基于 Polya- LittlewoodHardy 不 等 式 对 预测 评分 按 降序 排列 ) 与 向 量 = 
(I FT ) 的 点 积 最 大 化 。 换 句 话说 ， 要 使 得 元 的 排列 元 ( 按 降序 排列 ) 同 
的 点 积 6， 元 " 最 大 化 。 总 的 损失 函数 被 定义 为 对 于 所 有 可 能 的 的 取 值 ， 使 得 1 一 NDCG(n) 
和 cc。 (Fr 一元) 的 和 最 大 。 由 Poly- Littlewood- Hardy 不 等 式 可 以 得 出 该 损失 函数 的 上 界 。 这 
个 损失 函数 是 对 所 有 的 用 户 进行 全 部 加 和 。 为 了 确定 预测 评分 的 最 优 值 ， 将 其 定义 为 最 大 边 
缘 优化 问题 。 

2) CLIMF: 该 方法 5545'546 优 化 了 平均 倒数 排名 (MRR)， 它 倾向 于 获取 列表 中 排名 
靠 前 的 有 趣 的 物品 。 该 基本 方法 确定 了 MRR 的 一 个 平滑 版 本 ， 并 确定 该 版 本 的 一 个 下 
界 。 注 意 ， 因 为 使 用 MRR， 所 以 该 方法 被 用 于 隐 式 反馈 数据 集 。 一 个 称 为 xCLiMEF 的 相 
关 方 法 被 设计 用 于 显 式 评 分 。 

还 有 许多 其 他 方法 考虑 了 将 上 下 文 也 能 人 这 类 技术 中 5549] 。 

可 以 进一步 使 用 集成 学 习 方 法 提高 排名 方法 的 质量 。 多 种 技术 可 以 被 用 来 学 习 排 名 ， 
不 同 的 排名 可 以 被 聚集 为 一 个 排名 列表 。 这 个 问题 是 排名 聚集 (19] 。 例 如 ， 可 以 对 不 同 的 
排名 采用 平均 数 或 者 中 位 数 来 做 聚集 。 然 而 ， 也 可 以 采用 其 他 复杂 的 方法 ， 比 如 使 用 最 佳 
排名 或 者 将 两 种 方法 以 某 种 形式 相 组 合 。 中 位 数 排名 也 因为 其 在 聚集 质量 上 具有 一 些 很 好 
的 理论 结果 而 闻名 。 该 领域 仍 有 竺 开发， 是 未 来 一 个 不 错 的 研究 方向 。 


13.2.3 与 其 他 领域 中 排名 学 习 方 法 的 比较 


关于 推荐 排名 方法 的 一 绢 痕 好 的 教程 可 以 在 [323] 中 找到 。 值 得 注意 的 是 ， 基 于 预测 
的 模型 和 基于 排名 的 模型 之 间 的 二 分 法 也 存在 于 分 类 和 回归 模型 中 。 例 如 ，[284] 所 提出 的 
排名 支持 向 量 机 是 在 互联 网 搜索 引擎 的 背景 下 被 引入 。[115] 中 提出 了 基于 神经 网 络 模型 
的 排名 的 梯度 下 降 法 。 神 经 网 络 的 优势 在 于 它们 是 通用 函数 的 近似 ， 因 此 ， 多 层 神 经 网 络 
对 于 基于 排名 的 代价 函数 总 是 非常 有 效 。 机 器 学 习 背 景 下 的 排名 问题 的 详细 教程 在 [15] 
中 可 以 被 找到 。 在 这 类 工作 中 讨论 的 典型 应 用 是 互联 网 搜索 ， 这 也 可 以 被 看 作 是 一 种 扒 
荐 。 由 于 推荐 问题 可 以 被 看 作 是 分 类 和 回归 建 模 的 泛 化 ， 设 计 推 荐 算法 的 排名 变形 也 是 很 
HAW. BOL. 在 推荐 系统 设计 的 背景 下 的 排名 变形 是 更 重要 的 ， 这 是 因为 大 多 数 用 户 
只 被 提供 了 一 组 有 限 的 排名 列表 ， 而 不 是 所 预测 的 值 。 这 类 排名 方法 在 信息 检索 领域 也 被 
广泛 研究 。 这 类 方法 的 教程 可 在 [370] 中 被 找到 ， 并 且 该 方法 与 在 互联 网 上 的 机 器 学 习 
文献 中 使 用 的 方法 有 很 大 的 重 释 05,115,284] 。 信 息 检 索 的 方法 可 以 直接 被 用 来 提高 在 推荐 领 
域 中 基于 内 容 的 方法 的 有 效 性 。 


13.3 S BEBRINA 


在 许多 推荐 系统 背景 中 的 一 个 重要 挑战 是 ， 新 的 用 户 和 物品 不 断 出 现在 系统 中 ， 对 于 
推荐 系统 来 说 ， 能 够 不 断 适 应 数据 中 的 变化 模式 是 很 重要 的 。 因 此 ， 不 同 于 离线 推荐 算 
法 ， 需 要 对 推荐 系统 的 搜索 空间 进行 探索 和 利用 。 每 次 向 用 户 显 示 一 个 推荐 的 机 会 ， 推 荐 
系统 策略 、 对 象 或 算法 之 间 进 行 选择 ， 从 而 决定 展示 给 用 户 什么 内 容 。 这 些 选择 是 不 同 
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的 ， 这 取决 于 对 应 的 应 用 领域 。 一 些 例子 如 下 : 

1) 系统 可 能 使 用 许多 不 同 的 推荐 算法 ， 对 于 不 同 的 用 户 可 能 会 有 或 多 或 少 的 作用 。 
例如 ， 一 个 以 知识 为 基础 的 推荐 系统 可 能 会 更 好 地 服务 于 喜欢 高 层次 内 容 的 用 户 ， 而 对 一 
个 “懒惰 ”的 用 户 来 说 ， 一 个 协同 推荐 系统 可 能 会 更 好 。 因 此 ， 可 能 需要 不 断 地 学 习 来 获 
取 每 个 用 户 最 佳 的 推荐 策略 。 

2) 上 述 一 个 特殊 的 (也 很 重要 的 ) 情况 是 ， 一 个 物品 对 应 一 个 策略 。 例 如 ， 一 个 新 
闻 门 户 可 能 会 在 一 段 时 间 里 向 一 个 特定 用 户 显示 各 个 主题 的 文章 ， 所 推送 的 文章 会 出 现 偏 
差 ， 这 取决 于 用 户 对 不 同文 章 的 历史 兴趣 〈 即 点 击 )。 在 上 下 文 无 关 的 情况 下 ， 推 荐 是 独 
立 于 用 户 的 。 然 而 ， 在 实际 中 ， 每 个 用 户 会 和 一 个 特征 向 量 相 关联 ， 它 描述 了 用 户 在 特定 
主题 中 的 兴趣 。 这 为 在 多 臂 赌 博 机 算法 中 舱 入 个 性 化 信息 提供 了 渠道 。 如 果 一 个 用 户 对 体 
育 和 娱乐 更 感 兴趣 ， 那 么 推荐 系统 需要 在 运行 时 学 习 这 一 事实 ， 并 经 常 向 该 用 户 推送 属于 
这 些 主题 的 推荐 。 

这 些 系统 的 主要 挑战 是 ， 新 的 用 户 和 新 的 文章 会 不 断 进入 系统 。 因 此 ， 在 系统 运行 过 
程 中 必须 同时 学 习 用 户 的 兴趣 并 探索 这 些 兴趣 。 这 不 同 于 在 本 书 中 讨论 的 离线 环境 。 这 个 
问题 与 强化 学 习 相 关 ， 在 强化 学 习 中 ， 对 搜索 空间 的 探索 和 利用 是 同时 执行 的 。 这 样 的 一 
类 重要 的 强化 学 习 算 法 就 是 多 臂 赌 博 机 算法 。 

这 一 类 算法 的 名 字源 自 这 样 一 个 事实 : 将 推荐 系统 视 为 赌场 里 的 一 个 赌 徒 ， 他 需要 对 
一 些 赌博 机 〈 推 荐 算法 或 策略 ) 做 出 选择 ， 这 种 情况 如 图 13-2 所 示 。 通 过 拉动 每 一 个 机 
器 的 播 臂 ， 赌 徒 将 获得 以 一 个 特定 的 概率 分 布 的 回报 。 赌 徒 怀疑 其 中 的 一 个 赌博 机 可 能 有 
比 其 他 赌博 机 更 高 的 (预期 ) 回报 ， 虽 然 对 于 赌 徒 来 说 ， 如 果 没 有 尝试 所 有 的 赌博 机 是 无 
法 确定 这 样 一 台 赌 博 机 的 。 出 于 学 习 目 的 来 玩 这 些 赌博 机 可 以 被 看 作 是 一 个 对 于 策略 搜索 
空间 的 探索 。 当 然 ， 这 个 学 习 阶 段 很 可 能 会 浪费 试验 ， 因 为 它 并 不 能 找到 最 好 的 赌博 机 。 
然而 ,一 旦 赌 徒 学 习 到 其 中 一 个 机 器 会 有 更 好 的 回报 ， 他 可 以 通过 玩 这 人 台 机 器 来 获得 更 好 
的 回报 。 像 所 有 的 强化 学 习 算法 一 样 ， 多 臂 赌 博 机 算法 都 面临 着 对 搜索 空间 的 探索 和 利用 


之 间 的 折 中 。 
ogee nim ‘ 


推荐 系统 
图 13-2 多 臂 赌博 机 类 比 


我 们 用 网 页 推荐 系统 来 解释 这 种 场景 。 每 当 推荐 系统 必须 为 用 户 提供 网 页 推荐 时 ， 就 
会 面临 着 策略 选择 问题 。 例 如 ， 推 荐 系统 可 能 不 得 不 决定 选择 哪个 网 页 进行 推荐 。 这 些 选 
择 对 应 于 各 种 赌博 机 的 揪 臂 。 当 用 户 点 击 推荐 页 面 的 链接 时 ， 推 荐 系统 依据 推荐 的 成 功 来 
获得 回报 。 在 最 简单 的 情况 下 ， 点 击 问题 被 建 模 成 二 进 制 收益 模型 ， 一 次 点 击 对 应 着 1 个 
单位 的 回报 。 这 种 回报 可 以 被 看 作 是 一 种 类 似 于 由 一 个 赌 徒 从 赌博 机 得 到 回报 的 方式 。 在 
大 多 数 实际 环境 中 ， 附 加 的 上 下 文 信息 对 于 推荐 系统 中 的 用 户 或 推荐 的 内 容 是 可 用 的 。 上 
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下 文 信息 的 一 些 例 子 如 下 : 

D 一 组 描述 用 户 信 息 或 者 物品 信息 的 特征 是 可 以 获取 的 。 物 品 上 下 文 的 例子 包括 : 
被 推荐 物品 所 在 的 网 页 中 所 显示 的 内 容 。 例 如 ， 描 述 电 影 《Terminator》 的 网 页 上 的 推荐 
与 描述 电影 《Nero》 的 网 页 上 的 推荐 可 能 有 很 大 的 不 同 。 在 计算 广告 中 ， 这 一 类 上 下 文 信 
息 特别 普遍 。 

2) 用 户 可 以 被 聚集 成 为 小 组 ， 组 的 聚 类 标志 可 以 被 用 作 关 于 用 户 的 语义 知识 。 这 是 
因为 类 似 的 用 户 可 能 有 类 似 的 收益 ， 因 此 以 组 对 的 形式 对 用 户 进 行 分 段 分 析 。 

当 上 下 文 信息 对 于 用 户 是 可 用 时 ， 往 往 假设 用 户 识别 机 制 是 可 用 的 。 为 了 解释 多 臂 财 
博 机 算法 的 使 用 ， 我 们 将 首先 讨论 传统 的 没有 上 下 文 信息 的 场景 。 然 后 再 讨论 如 何 将 上 下 
文 信息 与 多 臂 赌 博 机 算法 结合 。 

有 一 些 策略 可 以 被 赌 徒 用 来 对 搜索 空间 的 探索 与 利用 进行 折 中 。 下 面 我 们 将 简要 介绍 
在 多 臂 赌博 机 中 使 用 的 一 些 常 见 策略 。 


13. 3. 1 朴素 算法 


在 这 种 方法 中 ， 在 探索 阶段 ， 赌 徒 会 以 一 个 固定 的 试验 次 数 来 玩 每 台 机 器 。 随 后 ， 在 
利用 阶段 ， 有 最 高 收益 的 机 器 将 永远 被 使 用 。 这 种 策略 与 用 于 在 线 推荐 系统 评估 的 A/B 
测试 有 很 多 相似 性 。 不 同 的 是 ，A/B 测试 仅 使 用 为 了 评估 目的 的 探索 阶段 ， 而 多 臂 赌博 机 
算法 还 有 一 个 利用 阶段 。 

虽然 这 种 方法 乍 一 看 似乎 是 合理 的 ， 但 它 有 一 些 缺 点 。 第 一 个 问题 是 ， 想 要 确定 一 台 
机 器 是 否 比 别 的 机 器 好 ， 需 要 进行 的 试验 次 数 是 难以 确定 的 。 估 计 收 益 的 过 程 可 能 需要 很 
长 的 时 间 ， 尤 其 是 当 收 益 事件 和 非 收益 事件 分 布 非常 不 均匀 的 时 候 。 例 如， 在 一 个 Web 
推荐 算法 中 ， 因 为 自信 地 确定 一 个 推荐 算法 优 于 其 他 算法 所 需要 进行 的 试验 次 数 会 很 多 ， 
因此 ， 点 击 率 可 能 不 够 。 使 用 大 量 的 试验 会 导致 大 量 的 尝试 被 浪费 在 寻找 次 优 策略 上 。 此 
外 ， 如 果 最 终 的 策略 是 错误 的 ， 那 赌 徒 将 永远 使 用 错误 的 赌博 机 。 实 际 上 ， 不 同 机 器 的 收 
w 〈 推 荐 算法 ) 可 能 会 随 着 时 间 的 推移 而 变化 。 这 种 赌 徒 赌博 机 算法 所 强调 的 动态 推荐 环 
境 是 特别 真实 的 。 因 此 ， 在 现实 世界 的 问题 中 ,永远 固定 一 个 策略 的 方法 是 不 现实 的 。 


13.3.2 ce 贪心 算法 


< 贪心 算法 被 设计 为 尽 可 能 快 地 使 用 最 好 的 策略 ， 而 不 要 浪费 大 量 的 试验 。 基 本 的 想 
法 是 对 于 试验 的 一 个 小 比例 es， 随机 选择 一 个 赌博 机 。 这 些 探索 试验 是 从 全 部 试验 中 〈 以 
概率 e) 随机 挑选 出 来 的 ， 因 此 完全 与 利用 阶段 的 试验 交错 。 在 剩 下 的 (1 一 e) 部 分 的 试 
验 ， 会 使 用 目前 有 最 好 的 平均 收益 的 赌博 机 。 这 种 方法 的 一 个 重要 优点 是 ， 这 样 可 以 保证 
不 会 永远 地 被 困 在 错误 的 策略 中 。 此 外 ， 由 于 利用 阶段 开始 得 很 早 ， 往 往 有 很 大 一 部 分 的 
时 间 会 使 用 最 好 的 策略 。 

e 值 是 一 个 算法 参数 。 例 如 ， 在 实际 设置 中 ， 可 能 设置 e 二 0.1， 尽 管 e 最 好 的 选择 将 会 
随 着 当前 的 应 用 有 所 不 同 。 在 特定 的 环境 中 ， 往 往 很 难 知道 最 好 的 e 值 。 然 而 ,为 了 在 利 
用 阶段 有 足够 的 优势 ，e 的 值 需 要 足够 小 。 然 而 ， 选 择 一 个 小 的 e 值 ， 在 新 的 赌博 机 ( 物 
品 ) 不 断 进 入 系统 的 环境 下 ， 就 会 面临 着 巨大 的 挑战 。 在 这 种 情况 下 ， 只 会 偶尔 探索 这 个 
新 的 赌博 机 从 而 错过 了 一 个 获得 更 好 回报 的 机 会 。 

我 们 用 一 个 例子 来 说 明 这 种 挑战 。 考 虑 这 样 一 个 情形 ， 赌 博 机 对 应 不 同 的 物品 ， 基 于 
用 户 的 特性 将 用 户 聚 类 。 对 于 每 组 中 的 相似 用 户 都 独立 地 执行 e 贪 心算 法。 每 当 有 机 会 给 
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用 户 提供 推荐 时 ， 就 使 用 e 贪 心算 法 ， 根 据 该 用 户 所 在 群 组 的 累计 的 统计 信息 来 选择 所 推 
荐 的 物品 。 某 时 刻 ， 一 个 新 的 物品 进入 该 系统 ，John 所 在 的 小 组 可 能 对 它 很 有 兴趣 。 然 而 ， 
在 e 值 很 小 的 情况 下 ， 这 个 物品 只 会 非常 偶尔 地 被 展示 给 John 所 在 的 小 组 ， 特 别 是 当 其 他 物 
品 的 数目 很 大 时 。 在 一 个 有 着 10 000 个 物品 并 且 e=0.1 的 系统 中 ， 近 似 地 取 100 000 处 才 会 
出 现 一 次 该 新 物品 。 这 意味 着 ， 在 该 物品 和 John 小 组 的 关联 被 学 习 到 之 前 将 有 大 量 的 试验 
被 浪费 。 


13.3.3 ERAGE 


即使 < 贪心 策略 比 动态 环境 中 的 朴素 策略 更 好 ， 但 它 在 学 习 新 赌博 机 的 收益 方面 仍然 
相当 低 效 。 在 动态 推荐 设置 中 ， 这 个 问题 是 普遍 存在 的 ， 因 为 一 直 会 有 新 物品 进入 系统 。 
在 上 限 策略 中 ， 赌 徒 不 使 用 赌博 机 的 平均 收益 ， 相 反 ， 赌 徒 更 看 好 很 少 被 尝试 的 赌博 机 。 
因此 在 收益 问题 中 使 用 具有 最 佳 统计 上 限 的 投 币 机 。 注 意 ， 很 少 被 测试 的 赌博 机 将 倾向 于 
有 更 大 的 上 限 (因为 较 大 的 置信 区 间 )， 因 此 也 将 更 频繁 地 被 尝试 。 此 外 ， 不 再 需要 明确 
使 用 参数 e 将 试验 分 为 两 类 ; 选择 具有 最 大 上 界 的 投 币 机 的 过 程 具 有 编码 探索 和 利用 资源 
的 双重 效果 。 

这 里 一 个 重要 问题 是 为 每 台 机 器 确定 收益 的 统计 上 限 。 这 通常 可 以 在 中 心 极限 定理 的 
帮助 下 实现 ， 即 大 量 独 立 同 分 布 的 随机 变量 的 总 和 《收益 ) 收敛 于 正 态 分 布 。 可 以 在 试验 
中 估计 正 态 分 布 的 平均 值 和 标准 偏差 ， 然 后 在 所 需 的 统计 置信 和 度 的 水 平 下 设置 每 个 赌博 机 
的 上 限 。 注 意 ， 新 的 赌博 机 将 有 更 大 的 置信 区 间 ， 因 此 上 界 也 将 相应 得 更 大 。 增 加 试验 次 
数 减少 了 置信 区 间 的 宽度 ， 因 此 上 界 将 趋向 于 随 着 时 间 增 加 而 减 小 。 当 一 个 新 的 赌博 机 进 
入 系统 ， 它 会 经 常 重复 ， 直 到 其 上 限 低 于 现 有 赌博 机 中 的 某 一 个 的 上 限 为 止 。 可 以 通过 使 
用 特定 置信 度 水 平 来 对 探测 和 利用 进行 权衡 。 例 如 ， 一 个 有 99%% 统 计 置 信 度 水 平 的 算法 与 
有 95% 统 计 和 置信 度 水 平 的 算法 相 比 ， 将 执行 更 大 比例 的 探测 。 

这 种 上 限 策略 最 近 已 经 被 用 于 设计 推荐 算法 [48] 。 许 多 这 些 算 法 使 用 用 户 的 上 下 文 特 
征 和 推荐 的 环境 来 设计 各 种 多 臂 赌博 机 探索 策略 和 利用 策略 。 其 基本 思想 是 ， 向 赌 徒 展示 
与 该 试验 相关 的 一 个 特征 向 量 《〈 例 如 ， 推 荐 系统 中 的 用 户 或 物品 画像 )， 然 后 赌 徒 基于 对 
特征 向 量 的 知识 对 赌博 机 做 出 选择 〈 对 推荐 策略 的 选择 或 者 对 物品 的 选择 ) 。 这 样 的 算法 
也 被 称 为 上 下 文 赌 博 机 算法 。 赌 徒 的 主要 目标 是 根据 以 往 的 经 验 来 学 习 上 下 文 特征 和 播 臂 
奖励 之 间 的 关联 关系 。 上 下 文 特征 向 量 可 以 从 诸如 用 户 简 档 或 推荐 所 在 的 网 页 等 侧面 信息 
中 提取 。 因 此 ， 上 下 文 特征 为 多 臂 赌博 机 算法 艇 人 不 同类 型 的 个 性 化 信息 提供 了 工具 。 

考虑 赌博 机 的 播 臂 对 应 推荐 中 不 同 的 物品 。 这 些 算法 的 基本 思想 是 重复 使 用 以 下 步骤 : 

D 〈 增 量 ) 训练 : 用 历史 的 特征 -收益 对 来 训练 分 类 或 回归 学 习 模 型 ， 从 而 学 习 每 个 
摇 辟 的 收益 期 望 。 大 多 数 情况 下 ， 随 着 新 的 特征 一 收益 对 不 断 地 进入 系统 ， 该 阶段 被 增 量 
式 地 执行 。 每 当 推 荐 系统 选择 一 个 特定 的 摇 臂 时， 其 特征 属性 和 增益 值 就 被 加 入 相应 摇 嵌 
的 训练 集中 。 因 此 ， 训 练 集 的 数目 (被 增 量 更 新 的 模型 ) 和 摇 臂 的 数量 一 样 多 。 对 于 每 个 
播 臂 来 说 ， 其 训练 样本 的 数量 等 于 该 播 臂 被 玩 的 次 数 。 所 以 ， 对 于 每 个 摇 臂 ， 会 使 用 不 同 
的 训练 数据 为 其 构建 单独 的 模型 。 一 般 会 采用 概率 或 统计 学 习 算 法 ， 对 每 个 摇 臂 〈 物 品 ) 
和 特定 的 特征 向 量 (上 下 文 )， 输 出 其 期 望 的 收益 和 估计 标准 差 〈 或 最 大 偏差 )。 注 意 ， 对 
应 着 新 物品 的 摇 辟 其 训练 集 较 小 。 训 练 集 小 会 导致 预测 的 偏差 更 大 。 一 般 来 说 ， 在 选择 收 
益 预 测 基 本 模型 时 要 记 住 两 个 标准 : 

。 基本 模型 应 该 是 增 量 更 新 的 ， 因 为 新 的 特征 -收益 对 会 被 不 断 地 加 入 训练 集 。 
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。 基本 模型 应 该 能 够 输出 一 些 预期 预测 误差 的 度量 〈 或 紧 上 界 ) 。 

2) 上 界 估 计 : 对 于 当前 的 上 下 文 画像 ， 我 们 使 用 学 习 模 型 为 每 个 摇 辟 构建 期 望 收益 
的 上 界 。 其 上 界 通过 计算 期 望 收益 与 标准 差 的 一 个 适当 的 倍数 的 和 来 获得 。 在 一 些 情况 
下 ， 会 用 最 大 偏差 的 紧 上 界 来 替代 标准 差 。 不 同 的 选择 通常 取决 于 计算 度量 的 容易 程度 。 

D 推荐 : 选择 具有 最 大 上 界 的 播 臂 。 将 其 对 应 的 物品 推荐 给 用 户 。 

随 着 时 间 的 推移 ， 当 给 用 户 做 出 推荐 以 及 有 新 的 示例 加 入 训练 集 时 ， 上 面 的 步骤 就 会 
被 执行 。 在 某 些 情况 下 ， 当 收益 是 二 进 制 的 值 〈 例 如 ， 是 否 点 击 了 一 个 链接 ) 时 ， 会 用 分 
类 模型 来 蔡 代 回归 模型 。 

LinUCB 算法 是 基于 [348] 的 一 个 类 似 的 上 限 算 法 。 它 使 用 线性 回归 算法 来 学 习 预 
期 的 收益 。 考 虑 这 样 一 个 环境 ， 其 中 第 ;个 摇 臂 到 目前 为 止 已 经 被 玩 了 mi 次 。 特 别 地 ， 如 
RX 是 对 应 于 当前 上 下 文 的 & HT) 向 量 ，D; 是 第 i 个 摇 辟 的 训练 数据 集 的 n;Xda 特 
(EME, JER i TERA ni 维 收益 〈 列 ) 向 量 ， 那 么 可 以 使 用 岭 回归 来 预测 和 第 ; 个 播 
臂 的 期 望 收益 如 下 : 


Payoff, = X [(DID,+an'D}] yz] (13=2) 
a 
d 个 特征 好 个 系数 


iH, A>O 是 正则 化 参数 , I 是 dXd 单位 矩阵 。 此 外 ， 期 望 偏 差 的 紧 上 界 可 以 在 收益 〈 响 
应 ) 变量 是 条 件 独立 的 假设 下 被 量化 。 特 别 地 ， 如 [348」 所 示 ， 对 于 二 进 制 收益 SS 来 说 ， 
下 面 的 公式 以 至 少 (1 一 9) 的 概率 为 真 。 


Deviation; < (1+ ./In(2/o)/2)* /X(DID; +a XT (13-3) 

D: 具有 更 大 数量 的 行 〈 训 练 样本 ) 时 ， 偏 差 将 减 小 ,因为 〈DID; 十 MT)-1 通 常 随 着 DD; 
中 的 项 的 变 大 而 变 小 。 此 外 ， 对 于 较 小 的 8 值 ， 偏 差 会 增加 。Payofft + Deviation; 值 最 大 
的 摇 臂 被 选 为 相关 的 一 个 。 通 过 增加 或 减少 $S， 可 以 在 探索 -利用 的 权衡 曲线 上 选择 所 需 
的 点 。 实 际 上 ， 可 以 直接 使 用 a==(1 十 Vin(2/6)/2 ) 替 代 8S， 作 为 相关 输入 参数 ， 尽 管 前 者 
与 6 的 关系 可 以 在 值 的 选择 上 提供 一 些 直观 的 指导 。 值 得 注意 的 是 ，DiD; 和 DF WAY 
被 增 量 地 更 新 ， 因 为 它们 可 以 被 表示 成 个 体 训练 点 的 属性 /收益 的 函数 的 线性 和 。 然 而 ， 
仍 需要 在 每 个 预测 期 间 对 dX4a EEDD: ADRK. Æ d 很 大 的 情况 下 ， 可 以 周期 性 地 
进行 求 逆 。 

实际 上 ， 任 何 概率 算法 都 可 以 被 用 来 计算 期 望 收益 的 鲁 棒 预 测 和 给 定 特 征 向 量 的 最 大 
偏差 。 值 得 一 提 的 是 ，LinUCB 使 用 了 偏差 的 紧 上 界 ， 而 不 是 标准 差 ， 因 为 它 更 容易 被 估 
计 。 在 许多 情况 下 ， 系 统 可 能 期 望 以 排名 列表 的 形式 呈现 出 不 止 一 个 推荐 。 最 简单 的 方法 
可 以 使 用 前 有 个 上 界 作为 近似 。 一 个 更 复杂 的 方法 是 使 用 石板 (slate) RE, XE [290] 
中 有 详细 讨论 。 
13.4 组 推荐 系统 

组 推荐 系统 的 提出 是 为 了 处 理 消 费 物品 的 对 象 是 一 个 用 户 群 体 而 非 单 个 用 户 的 情形 。 
这 些 情 况 的 一 些 例子 和 为 处 理 这 些 问题 而 开发 的 系统 包括 : 

1) 电影 领域 : 在 许多 情况 下 ， 一 群 用 户 可 能 希望 出 去 看 一 组 电影 。 因 此 ， 推 荐 必须 


适合 于 小 组 。 这 种 推荐 系统 的 示例 是 PolyLens[1s8] ， 它 提供 推荐 给 用 户 组 。PolyLens 可 以 
看 作 是 一 个 MovieLens 系统 的 扩展 。 


o ”如 果 收 益 位 于 (0, Al 之 间 ， 那 么 偏差 也 需要 按 比例 放大 A 
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2) 电视 领域 : 像 电 影 一 样 ， 人 们 可 能 想 为 用 户 组 推荐 节目 进行 观看 。[653] 中 讨论 
了 对 用 户 兴趣 进行 合并 的 电视 节目 推荐 的 示例 。 

3) 音乐 领域 : 虽然 用 户 组 中 的 成 员 一 起 听 音 乐 并 不 十 分 常见 ， 但 在 健身 中 心 或 体育 馆 
还 是 会 出 现 以 组 来 〈 例 如 健身 ) 播放 音乐 。 这 样 的 系统 的 示例 包括 MusicFXL43] 组 推荐 系统 。 

4) 旅游 领域 : 旅游 领域 可 能 是 最 常见 的 组 推荐 。 这 是 因为 计划 一 起 团体 旅行 是 很 常 
见 的 。 这 种 系统 的 一 些 例子 包括 Intrigue?) 、 旅 游 决 定论 坛 (Travel Decision Forum)!2721 
和 合作 咨询 旅游 系统 (CATS)L93] 。 

这 些 过 程 引出 一 个 很 自然 的 问题 : 为 什么 在 这 些 情况 下 不 使 用 直接 的 平均 化 来 向 小 组 
推荐 物品 ? 毕 竞 ， 如 果 目 标 是 最 大 化 整体 效用 ， 那么 使 用 平均 值 似乎 是 最 有 效 的 选择 。 但 
是 ， 用 户 可 以 经 常 基于 社会 现象 影响 其 他 人 ， 如 情感 传染 和 一 致 性 [409] 。 这 些 现象 可 以 定 

423) 义 为 如 下 : 

1) 情感 传染 : 各 种 用 户 的 满意 程度 可 以 对 其 他 人 产生 深刻 的 影响 。 例 如 ， 如 果 一 组 
用 户 正在 一 起 观看 电影 ， 并 且 如 果 小 组 中 的 一 些 成 员 不 喜欢 这 部 电影 ， 这 就 会 对 其 他 用 户 
产生 传染 性 的 效果 。 在 这 种 情况 下 ， 平 均 化 不 能 很 好 地 工作 ， 因 为 用 户 的 喜好 会 互相 感 
染 ， 小 组 的 最 终 体验 可 能 与 平均 评分 所 指示 的 体验 非常 不 同 。 

2) 一 致 性 : 一 致 性 与 情感 传染 的 概念 密切 相关 ， 人 情感 传染 中 用 户 表 达 的 意见 会 相互 
影响 。 但 是 ， 社 会 现象 略 有 不 同 ， 因 为 用 户 可 能 会 有 意识 地 想 和 同伴 有 相同 或 者 相似 的 意 
见 〈 尽 管 有 隐藏 的 意见 分 歧 )， 或 者 用 户 的 意见 会 受到 同伴 的 影响 而 发 生 无 意识 的 改变 。 
结果 ， 最 后 该 组 的 最 终 体验 可 能 与 平均 评分 所 指示 的 评分 存在 显著 偏离 。 

这 两 个 与 社会 选择 理论 相关 的 社会 现象 对 推荐 系统 的 性 能 具有 重要 的 影响 。 因 此 ， 平 
均 化 策略 往往 行 不 通 。 例 如 ，[654」 对 基于 平均 化 策略 的 电视 推荐 服务 进行 了 评 佑 ， 证 明 
了 当 群 体 具 有 均匀 的 喜好 时 ， 推 荐 系统 表现 良好 ， 但 是 当 喜 好 变化 很 大 时 效果 较 差 。 因 
此 ， 在 建 模 过 程 中 使 用 社会 现象 是 至 关 重 要 的 。 此 外 ， 组 推荐 的 定义 也 往往 各 不 相同 ， 这 
取决 于 它们 是 否 是 协同 的 、 基 于 内 容 的 或 基于 知识 的 环境 。 虽然 基于 协同 和 基于 内 容 的 群 
体 推 荐 的 一 般 原则 比较 类 似 ， 但 基于 知识 的 推荐 系统 的 原则 则 完全 不 同 。 接 下 来 ， 我 们 将 
会 就 各 种 情况 进行 研究 。 


13.4.1 协同 和 基于 内 容 的 系统 


依据 用 于 创建 组 推荐 的 方法 ， 协 作 和 基于 内 容 的 系统 通常 非常 相似 。 一 般 方法 包括 以 
FRASER: 

1) 在 任何 协作 或 基于 内 容 的 系统 中 ， 对 每 个 用 户 独立 地 执行 推荐 。 对 于 给 定 的 组 和 
给 定 的 物品 集 ， 确 定 每 个 用 户 一 物品 组 合 的 评分 预测 。 

2) 对 于 每 个 物品 ， 用 一 个 聚集 函数 将 组 中 各 个 成 员 的 预测 评分 聚集 成 单个 的 组 评分 。 
该 函数 可 以 是 简单 的 加 权 平 均 ， 或 者 使 用 基于 社会 选择 理论 的 聚集 方法 ， 或 两 者 的 结合 。 
然后 基于 预测 的 组 评分 ， 对 所 有 物品 进行 排名 。 

各 类 方法 的 主要 区 别 是 第 二 个 聚集 步骤 的 实现 。 在 第 二 个 步骤 中 ， 会 采用 各 种 不 同 的 
聚集 策略 将 不 同 的 评分 转换 为 单个 值 。 这 些 策略 如 下 : 

1) 最 低 痛 苦 策 略 : 在 最 低 痛 苦 策略 中 ,总 体 评 分 被 定义 为 组 中 所 有 成 员 中 的 最 低 评 
分 。 这 种 方法 的 基本 思想 是 为 了 防止 社会 传染 和 一 致 性 的 负面 影响 。 系 统 使 用 这 种 方法 的 

实例 是 PolyLensL158]， 
2) 加 权 平 均 : 这 种 方法 对 各 个 评分 做 加 权 平 均 ， 权 重 与 每 个 个 体 相 关联 。 权 重 常常 


推荐 系统 高 级 主题 317 


被 用 于 建 模 一 些 特定 类 型 以 避免 极端 的 不 喜欢 或 不 可 行 的 情况 。 例 如 ， 一 个 赌场 度假 村 不 
应 该 被 推荐 给 一 个 包含 孩子 的 旅游 群体 。 一 个 艰苦 的 旅行 不 应 该 被 推荐 给 包含 残疾 人 的 团 
体 。 这 种 为 个 人 喜好 提供 更 大 权重 的 能 力 增加 了 组 推荐 系统 的 可 接受 性 和 可 行 性 。 这 种 策 
略 的 一 种 变形 被 用 于 Intrigue 旅行 推荐 系统 [2 ] 。 [168] 建议 应 该 给 来 自 专家 的 评分 分 配 
更 大 的 权重 。 最 后 ， 还 可 以 对 每 个 物品 ， 利 用 加 权 求 和 的 方式 将 最 低 痛苦 策略 与 加 权 平 均 
策略 相 结合 。 

3) 没有 痛苦 的 平均 : 这 种 方法 是 在 去 掉 组 内 最 低 的 评分 之 后 ， 对 该 组 成 员 的 预测 评 
分 进行 平均 。 注 意 这 种 方法 与 最 低 痛 苦 策 略 关注 的 正好 相反 ， 它 只 对 有 最 大 满意 度 的 成 员 
的 评分 进行 平均 。 这 种 类 型 的 方法 在 MusicFX 系统 中 有 使 用 [31 。 当 考虑 这 种 方法 时 ， 需 
要 注意 ,与 不 愉快 的 经 历 一 样 ， 愉 快 经 历 的 情绪 也 会 以 相同 的 方式 被 传染 。 

平均 方法 的 一 种 变形 是 使 用 中 值 替代 平均 值 。 使 用 中 值 的 优点 是 它 不 易 受 噪声 和 异常 
值 的 影响 。 例 如 ， 单 个 高 度 负面 评分 可 能 显著 影响 平均 值 ， 但 它 可 能 不 会 影响 中 位 数 。 当 
用 户 注意 到 其 他 用 户 对 推荐 做 出 特别 高 的 正 评分 或 负 评 分 从 而 导致 对 整个 推荐 有 很 大 影响 
时 ， 这 种 方法 会 特别 有 用 。 这 里 ， 平 均值 不 再 代表 组 评分 。 旅 行 决策 论坛 [?" 引 使 用 了 这 种 
方法 。[407] 中 提出 了 各 种 其 他 的 聚集 策略 。 请 参考 13. 10 节 。 


13.4.2 基于 知识 的 系统 


上 述 系统 都 基于 确定 的 评分 。 然 而 ， 基 于 知识 的 系统 不 是 基于 用 户 评分 ， 而 是 基于 用 
户 指 定 的 需求 。 因 此 ， 这 种 系统 的 一 个 自然 方法 是 让 每 个 用 户 指 定 他 的 要 求 ， 这 些 要 求 被 
聚合 成 单个 集合 。 然 后 ,满足 大 多 数 要 求 的 物品 会 被 推荐 。 这 种 方法 被 协作 咨询 旅行 系统 
(Collaborative Advisory Travel System，CATS)L413] 使 用 。 这 样 的 系统 还 允许 交互 式 反 
馈 ， 即 允许 以 交互 的 方式 探索 用 户 群 体 的 兴趣 。 基 于 知识 的 系统 特别 适合 组 推荐 ， 因 为 它 
们 允许 用 户 群 体 在 实际 使 用 该 物品 之 前 以 交互 方式 达成 共识 。 这 减少 了 在 最 终 推荐 中 不 满 
意 的 可 能 性 。 虽 然 基 于 知识 的 系统 是 为 复杂 产品 域 设计 的 ， 它 们 也 可 用 于 复杂 用 户 域 的 环 
境 。 组 推荐 就 可 以 被 视 为 复杂 的 用 户 域 。 基 于 知识 的 推荐 系统 在 第 5 章 中 已 经 讨论 过 。 


13.5 多 标准 推荐 系统 


在 许多 推荐 应 用 中 ， 用 户 可 能 对 基于 不 同 的 标 = 13-1 用 户 评测 定义 相似 度 的 效果 
准 的 物品 感 兴趣 。 例 如 ， 在 电影 推荐 系统 中 ， 一 个 
用 户 可 能 对 视觉 效果 感 兴趣 ， 而 另 一 个 用 户 可 能 对 
情节 感 兴趣 。 在 这 种 情况 下 ， 一 个 总 体 评分 很 难 反 
应 用 户 的 全 部 选择 。 考 虑 如 表 13-1 所 示 的 例子 。 在 
这 种 情况 下 ， 三 个 用 户 对 电影 《Gladiator》 分 别 基于 
视觉 效果 、 和 情节 和 总 体 效 果 给 出 了 评分 。 注 意 整体 评分 由 用 户 直 接 指定 ， 可 能 并 不 代表 所 
有 评分 的 均值 。 评 分 值 的 范围 在 1 到 10 之 间 。 很 显然 ，Alice 和 Sayani 具有 完全 相同 的 总 
体 评分 ， 但 他 们 对 情节 和 视觉 效果 的 评分 模式 非常 不 同 。 另 一 方面 ，Alice 和 Bob 在 整体 
评分 上 略 有 不 同 ， 但 在 视觉 效果 和 情节 上 有 相似 的 评分 。 因 此 ， 在 任何 基于 组 的 预测 方法 
上 ，Alice 和 Bob 之 间 应 该 被 认为 比 Alice 和 Saynani 之 间 更 加 类 似 。 仅 仅 基于 总 评分 的 相 
似 性 计算 ， 常 常会 产生 误导 性 的 预测 。 

多 标准 系统 中 的 总 体 评分 可 以 由 用 户 明确 指定 ， 也 可 以 使 用 全 局 效用 函数 (例如 ， 简 
单 平均 ) 来 导出 。 当 总 体 评分 是 由 用 户 指定 时 ， 可 以 使 用 线性 回归 方法 (例如 第 5 章 所 讨 
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论 的 基于 知识 的 推荐 系统 ) 来 学 习 特 定 用 户 的 效用 函数 。 当 用 户 没有 指定 总 体 评分 时 ， 我 
们 不 需要 计算 一 个 总 体 评分 ， 而 可 以 通过 对 来 自 不 同 评测 标准 的 预测 评分 进行 聚集 从 而 对 
物品 直接 进行 排名 。 在 其 他 情况 下 ， 可 以 隐 式 地 对 各 种 标准 的 评分 进行 平均 来 计算 一 个 总 
体 评 分 。 如 果 需 要 ， 也 可 以 对 各 种 评测 标准 使 用 特定 领域 知识 〈 例 如 ， 效 用 函数 ) 来 进行 
MAL. 

应 当 指 出 ， 多 标准 推荐 系统 与 基于 知识 的 推荐 系统 有 内 在 联系 ， 它 被 设计 用 于 复杂 的 
产品 域 ， 如 汽车 。 这 些 产 品 有 多 个 评测 标准 ， 如 性 能 、 车 内 设计 、 豪 华 选 择 、 导 航 等 。 在 
这 样 的 域 中 ， 用 户 希 望 根据 产品 是 否 满足 他 所 指定 的 标准 来 进行 排名 。 由 于 这 些 方法 已 在 
第 5 章 中 讨论 过 ， 本 章 将 主要 关注 基于 内 容 和 协同 过 滤 的 方法 。 

EFX. 我们 将 讨论 在 多 标准 推荐 系统 中 一 些 常 用 的 方法 。 有 关 最 近 研 究 的 讨论 ， 请 
参阅 13. 10 节 。 为 了 方便 下 面 的 讨论 ,我们 假设 总 共有 个 标准 ， 分 别 为 {1，2，…，c)。 
第 个 标准 对 应 的 mr Xn 的 评分 矩阵 ， 被 记 作 RO, 在 R 中 用 户 i 对 于 物品 j 的 评分 为 
r4 。 在 用 户 指 定 总 体 评分 的 情况 下 ， 相 应 的 评分 矩阵 由 R"” 表示 ， 用 户 i 对 于 物品 i 的 总 
体 评分 的 相应 值 记 为 ro o 


13.5.1 基于 近邻 的 方法 


基于 近邻 的 方法 可 以 很 容易 地 适应 多 标准 系统 的 工作 ， 因 为 它 可 以 很 容易 地 将 多 个 标 
准 并 入 相 似 度 函 数 。 大 多 数 现 有 的 基于 近邻 的 方法 是 基于 用 户 的 协同 过 滤 方 法 ， 而 不 是 基 
于 物品 的 协同 过 滤 方 法 。 然 而 ， 原 则 上 来 说 ， 是 可 以 将 基于 物品 的 方法 推广 到 多 标准 场景 
下 的 。 接 下 来 ， 我 们 仅 讨论 基于 用 户 的 近邻 方法 ， 因 为 它 被 更 广泛 地 接受 ， 并 且 实 验 结果 
可 用 。 

让 sim* (i，]) 代 表 用 户 i Mj 关于 标准 & 的 相似 度 ， 其 中 &E {lech EH, 我们 假 
设 总 体 评分 矩阵 R'" 是 可 用 的 ， 并且 用 户 i 和 用 户 j 的 总 体 评 分 相似 度 用 sim" G, DER. 
然后 ， 基 于 近邻 的 方法 可 以 用 如 下 方法 实现 : 

D 对 每 个 kE {0…c)， 计 算 每 对 用 户 i、j 的 相似 度 Sim* (i，j)。 第 2 章 所 介绍 的 任何 
方法 ， 比 如 Pearson 相关 系数 ， 都 可 以 用 来 计算 Sim* CG, 7). 

2) 对 任意 用 户 对 i、;， 通 过 聚集 函数 FF(，。) 对 不 同 标准 上 的 相似 度 值 做 聚集 ， 来 计 
算 i 和 j OREHE Sm CG, UTF: 

Simsser (i,j) = F(Sim? (i,j), Sim! (i,j), Sim?(,j),-,Sim®(i,j)) (13-4) 

使 用 该 聚集 相似 度 来 确定 每 个 用 户 的 & 近邻 伙伴 。 

3) 通过 对 用 户 t 的 所 有 伙伴 在 物品 ; 上 的 总体) 评分 使 用 相似 度 加 权 ， 来 预测 用 户 
t 对 物品 7 的 评分 。 通 常 ， 这 个 方法 会 与 基于 行 的 均值 中 心 化 方法 相 结合 来 避免 特定 用 户 
的 偏差 。 因 此 ， 这 种 方法 在 总 体 评分 矩阵 RO 上 的 计算 基本 等 效 于 第 2 章 的 公式 (2-4), 
除了 使 用 聚集 相似 度 函 数 Simaser(. ，. ) 来 确定 用 户 的 近邻 伙伴 以 及 公式 (2-4) 的 加 权 目 
标 有 所 不 同 。 

值得 注意 的 是 ， 公 式 (13-4) 中 的 聚集 函数 也 使 用 了 Sim? G, j) (基于 整体 评分 的 相 
似 度 )。 各 种 方法 的 主要 区 别 在 于 公式 (13-4) 中 的 聚集 如 何 被 计算 。 常 见 的 聚集 方法 有 : 

1) 平均 相似 度 : 这 种 方法 63 是 对 〈c 十 1) 个 不 同 的 评分 (包括 整体 评分 ) 求 平 均 。 
因此 ， 公 式 (13-4) 中 的 函数 下 (。) 按 如 下 定义 ， 


> Sim! (i,j) 
Simes (i,j) = =e (13-5) 
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2) 最 坏 情况 相似 度 : 这 种 方法 中 选择 所 有 标准 (包括 全 部 等 级 ) 中 最 小 的 相似 度 作 
为 最 坏 情 况 相 似 度 。 因 此 ， 我 们 有 : 
Sim**" (i,j) = min{_, Sim? (i,j) (13-6) 
3) 加 权 聚 集 : 这 种 方法 5 中 是 对 均值 技术 的 泛 化 ， 它 对 不 同 标准 的 相似 度 做 加 权 和 。 
wort, we 为 不 同 标准 的 权重 。 则 聚集 相似 度 的 定义 如 下 : 


Sim" (i,j) = X) Simt (i,j) (19-79 
k=0 


wi 的 值 确定 了 标准 i 的 权重 ， 可 以 使 用 直接 的 参数 调 优 技巧 来 确定 权重 ， 比 如 交叉 验证 
( 见 第 7 章 )。 

除了 使 用 相似 度 之 外 ， 还 可 以 对 用 户 的 近邻 使 用 距离 函数 。 注 意 ， 相 似 的 物品 上 用 户 
之 间 会 有 更 小 的 距离 。 为 了 执行 加 权 ， 我们 需要 以 启发 式 方式 将 距离 转换 成 相似 度 。 对 于 
任何 一 对 用 户 ， 仅 当 这 两 个 用 户 有 共同 物品 上 的 评分 时 ， 它 们 的 距离 才 会 被 计算 。 通 过 对 
各 种 标准 做 聚集 ， 我 们 为 每 个 物品 单独 计算 用 户 的 距离 。 在 第 二 个 聚集 步骤 中 ,会 对 不 同 
物品 上 用 户 之 间 的 距离 做 平均 。 

对 一 个 特定 的 物品 9， 第 一 步 是 如 何 计算 用 户 i 和 j 之 间 的 距离 ItemDistaggr(i，7，9)? 
注意 ,为 了 计算 该 距离 ， 要 求 用 户 AAP 都 已 对 物品 9 做 出 过 评分 。 一 个 自然 的 方法 
E Ly 范 数 ， 其 定义 如 下 : 


ItemDistag lijs) = (DIri — ri |)” (13-8) 
k=0 


通常 使 用 的 p HA p=1 (SH RR). p=2 (KREK) BA p= 《Ls 范式 )。 

对 每 个 被 用 户 i 和 用 户 7 共同 评分 过 的 物品 ， 都 需要 用 该 方法 计算 。 我 们 将 该 物品 集 
记 为 I(i，j)。 全 部 物品 上 的 总 体 距 离 Dist*ser(i，7 站 可 以 被 定义 为 I(i, 7) 中 所 有 物品 上 的 
距离 的 平均 : 

>) ltemDist"ser (i,j,q) 


Dist" (i,j) = a (13-9) 
可 以 用 简单 的 核 计算 或 反 转 技巧 将 距离 转换 成 相似 度 值 : 
ee Ce eee eee (13-10) 


1 + Dister (i,j) 
在 计算 出 相似 度 值 之 后 ， 则 可 以 利用 上 述 的 基于 用 户 的 协同 过 滤 方 法 。 


13.5.2 基于 集成 的 方法 


为 了 执行 推荐 ， 上 述 的 技术 都 相应 地 做 出 了 改动 ， 变 成 一 个 特定 的 算法 ， 例 如 基于 近 
邻 的 算法 。 然 而 ， 也 可 以 使 用 基于 集成 的 方法 ， 利 用 现 有 的 任意 技术 来 做 推荐 05 。 基 本 
方法 包含 两 个 步骤 : 

1) 对 于 每 一 个 & 值 ， 其 中 RE {1…c}， 对 评分 矩阵 R* ， 使 用 任何 现成 的 协同 过 滤 算 
法 对 标准 & 填 人 预测 评分 。 

2) 对 于 每 个 用 户 i 和 物品 g， 其 中 9g 在 各 个 标准 下 的 评分 已 被 预测 ， 用 聚集 函数 CO 
将 不 同 标准 下 的 预测 评分 做 聚集 : 

PO = FP er) (13-11) 
所 计算 出 的 聚集 值 提 供 了 用 户 守 对 物品 9 的 一 个 总 体 预 测评 分 。 可 以 将 给 用 户 推荐 的 物 
品 按照 该 评分 进行 排名 。 
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聚集 函数 f() 的 构造 仍 有 待 解释 。[12」 中 有 三 种 常见 的 技术 : 

D 特定 域 与 启发 式 方法 : 在 这 种 情况 下 ， 由 域 专家 感知 各 种 标准 的 重要 性 来 定义 聚 
集 函 数 。 最 简单 的 方法 是 使 用 不 同 标准 上 预测 评分 的 平均 值 。 

2) 统计 方法 : 这 些 代表 了 线性 和 非 线 性 的 回归 方法 。 例 如 ， 总 体 预 测评 分 可 以 被 表 
示 为 各 种 标准 上 预测 评分 的 线性 加 权 和 : 


iq ig 


如 在 第 6 章 6. 3 PIER, wowe 的 值 可 以 使 用 线性 回归 技术 来 学 习 。 注 意 ， 不 同 标 
准 上 各 种 评分 的 观察 值 可 以 被 用 作 训 练 数据 来 学 习 权重 。 

3) 机 器 学 习 方法 : 这 种 方法 与 第 二 种 方法 在 原理 上 没有 很 大 不 同 。 除 了 回归 技术 以 外 ， 
任何 机 器 学 习 方法 (例如 神经 网 络 ) 也 都 可 以 被 使 用 。 注 意 ,简单 版 本 的 神经 网 络 也 可 以 被 
当 作 线性 回归 的 近似 。 然 而 ， 神 经 网 络 具有 更 强大 的 能 力 来 建立 任意 复杂 函数 模型 。 

上 述 讨论 是 基于 全 局 聚集 的 假设 。 然 而 ， 如 果 有 关于 用 户 和 物品 的 足够 数量 的 已 观测 
评分 ， 也 可 能 是 要 学 习 特 定 用 户 或 者 特定 物品 的 聚集 函数 。 基 于 集成 的 方法 易于 实现 ， 因 
为 它 提供 了 在 过 程 的 各 个 阶段 中 使 用 现成 工具 的 能 力 。 集 成 方法 的 这 一 特性 为 模型 选择 ， 
以 及 选择 合适 的 学 习 方 法 来 调 优 系统 提供 了 更 大 的 灵活 性 。 


13. 5.3 无 整体 评分 的 多 标准 系统 


上 述 方法 需要 有 可 用 的 总 体 评分 信息 才能 做 推荐 。 在 总 体 评分 不 可 用 时 ， 前 面 章节 中 
讨论 的 方法 就 不 能 以 它 当 前 的 形式 使 用 。 但 仍 可 以 使 用 上 一 节 中 讨论 的 基于 集成 的 方法 中 
的 第 一 步 。 主 要 的 差别 在 于 第 二 步 ， 需 要 在 没有 任何 可 用 的 学 习 数 据 的 情况 下 对 预测 评分 
做 聚集 。 因 此 ， 线 性 回归 、 非 线性 回归 、 神 经 网 络 或 其 他 机 器 学 习 方 法 不 再 可 行 。 然 而 ， 
仍然 可 以 使 用 启发 式 和 特定 域 的 组 合 函 数 。 然 后 基于 聚集 值 对 物品 进行 排名 。 向 用 户 呈 现 
物品 的 第 二 种 方法 是 对 不 同 的 标准 的 预测 评分 使 用 pareto 最 优 解 。 满 足 pareto 最 优 解 的 
物品 连同 它们 被 推荐 的 理由 会 一 同 呈 现 给 用 户 。13. 10 节 中 介绍 了 总 体 评 分 不 可 用 情况 下 
的 各 类 多 标准 系统 。 


13.6 推荐 系统 中 的 主动 学 习 


推荐 系统 严重 依赖 于 用 户 提供 的 历史 数据 。 然 而 ， 评 分 矩阵 有 时 过 于 稀 朴 ， 这 给 提供 
有 意义 的 推荐 带 来 挑战 。 在 启动 时 尤其 如 此 ， 在 启动 时 经 常会 遇 到 冷 启动 问题 。 在 这 种 情 
况 下 ， 重 要 的 是 要 快速 获得 更 多 的 评分 以 建立 评分 和 矩阵。 获取 评分 的 过 程 是 耗 时 的 ， 并 且 
成 本 高 ， 因 为 用 户 没 有 感到 效益 时 ， 通 常 不 愿意 自愿 提供 评分 。 事 实 上 ， 有 人 认为 Co%31 用 
户 只 有 在 协同 过 滤 应 用 程序 中 得 到 相当 的 补偿 时 才 愿 意 分 享 私 人 信息 。 这 意味 着 评分 的 获 
取 需 要 先 付出 一 定 的 成 本 〈 通 常 是 隐 含 的 ) 。 主 动 学 习 系 统 选择 特定 的 用 户 - 物 品 组 合 来 获 
取 评分 ， 从 而 最 大 化 预测 评分 的 精确 度 。 例 如 ， 考 虑 电影 推荐 系统 的 场景 ， 其 中 许多 动作 
电影 已 经 评分 ， 但 没有 已 经 被 评分 的 喜剧 电影 。 在 这 种 情况 下 ， 为 了 最 大 化 预测 的 精确 
性 ， 主 动 获 得 喜剧 电影 的 评分 〈 而 不 是 获得 动作 电影 的 评分 ) 是 直观 有 效 的 。 这 是 因为 通 
过 获取 其 他 动作 电影 的 评分 对 精度 的 增加 量 很 可 能 小 于 通过 获取 喜剧 电影 的 评分 对 精度 的 
增加 量 。 毕 竟 ， 根 据 已 有 的 评分 信息 ， 已 经 能 够 对 动作 电影 的 评分 进行 很 好 的 预测 ， 而 通 
过 已 有 评分 对 喜剧 电影 的 预测 则 较 差 。 这 里 的 问题 是 不 能 随意 获得 任意 用 户 - 物 品 组 合 的 
评分 。 例 如 ， 不 能 指望 一 个 没有 消费 某 物品 的 用 户 对 该 物品 做 出 评分 。 


DE (13-12) 
k=1 
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主动 学 习 通 常 被 用 于 分 类 应 用 中 ; 因此 ， 基 于 内 容 的 方法 的 适用 性 是 显而易见 的 。 
因为 基于 内 容 的 方法 的 本 质 就 是 特定 用 户 上 训练 数据 的 分 类 问题 。 在 协同 过 滤 的 应 用 中 ， 
通常 没有 指定 内 容 和 类 型 信息 ， 必 须 使 用 当前 可 用 的 评分 矩阵 来 做 出 预测 。 在 最 简单 的 形 
式 中 ， 可 以 用 如 下 方式 定义 评分 获取 问题 : 

给 定 评 分 矩阵 及 、 成 本 预算 C 和 评分 获取 成 本 c， 确 定 一 个 能 使 得 预测 精度 最 大 化 的 
用 户 一 物品 组 合 的 集合 ， 该 集合 中 的 评分 必须 被 获取 。 

显然 ， 用 于 分 类 的 主动 学 习 的 定义 与 协同 过 滤 类 似 。 在 分 类 问题 中 ， 训 练 点 的 标签 被 
查询 。 在 协同 过 滤 中 ， 用 户 一 物品 组 合 的 评分 被 查询 。 由 于 协同 过 滤 是 分 类 问题 的 泛 化 
(参见 第 1 章 的 图 1- 4)， 分 类 中 的 主动 学 习 方法 也 可 以 推广 到 协同 过 滤 的 场景 。 然 而 ， 协 
同 过 滤 和 分 类 有 一 个 关键 的 区 别 。 在 分 类 中 ， 假 设 存在 一 个 能 提供 任何 查询 数据 点 标签 的 
神 。 这 个 假设 并 不 适用 于 协同 过 滤 。 例 如 ， 如 果 一 个 用 户 没 有 消费 某 物品 ， 则 不 能 期 望 她 
为 其 提供 评分 。 然 而 ， 在 协同 过 滤 中 主动 学 习 的 基本 原理 与 它 在 分 类 中 的 原理 是 类 似 的 ， 
至 少 在 确定 哪些 用 户 一 物品 的 组 合 是 最 值得 获取 这 一 方面 它们 是 类 似 的。 在 许多 情况 下 ， 
可 以 向 用 户 提供 评价 特定 物品 的 动机 。 例 如 ， 可 以 向 用 户 赠 送 物品 作为 她 提供 一 定数 量 评 
分 的 交换 。 

主动 学 习 最 简单 的 方法 是 查询 已 由 用 户 评分 过 的 但 评分 稀 朴 的 物品 。 这 有 助 于 解决 冷 
启动 问题 。 但 是 ， 这 样 的 方法 仅 在 推荐 系统 设置 的 初始 阶段 有 用 。 在 后 期 阶段 ， 需 要 更 精 
细 的 技术 ， 对 特定 用 户 和 特定 物品 的 组 合 进 行 选择 。 这 种 方法 是 基于 分 类 中 已 有 的 思想 。 

主动 学 习 仍 然 是 协同 过 滤 主 题 中 的 一 个 新 兴 领 域 ， 而 且 在 这 一 领域 提出 的 方法 相对 较 
少 。 因此， 本 节 将 简要 讨论 在 分 类 中 使 用 的 两 种 被 用 于 协同 过 滤 的 常用 方法 "中 及 其 适 
用 性 。 这 两 种 方法 是 基于 异 质 性 的 模型 和 基于 性 能 的 模型 。 在 前 一 种 情况 下 ， 会 选择 在 执 
行 查询 之 前 预测 评分 值 最 不 确定 的 数据 点 〈 用 户 - 物 品 组 合 ) 进行 查询 。 在 基于 性 能 的 模 
型 中 ， 被 查询 的 数据 点 要 满足 ， 将 新 查询 的 评分 纳入 矩阵 后 ， 对 剩余 项 的 预测 精确 性 的 期 
望 值 最 佳 。 


13.6.1 基于 异 质 性 的 模型 


在 基于 异 质 性 的 模型 中 ， 目 标 是 对 在 执行 查询 之 前 其 预测 评分 最 不 确定 的 用 户 一 物品 
组 合 做 查询 。 判 断 不 确定 性 的 具体 方法 取决 于 手头 的 模型 。 例 如 ， 如 果 用 特定 方差 来 预测 
数字 评分 ， 则 每 个 用 户 应 该 选择 具有 最 大 预测 方差 的 物品 来 查询 。 在 用 贝 叶 斯 方法 的 二 进 
制 评分 预测 中 ， 先 验 概率 p, 最 接近 0.5 (BN | p,—0.5| MD) 的 物品 q 会 被 查询 。 在 
特定 模型 背景 下 如 何 使 用 这 个 方法 的 例子 如 下 : 

D 在 基于 用 户 的 近邻 方法 中 ， 给 定 用 户 一 物品 组 合 (i，g)， 可 以 通过 用 户 i 的 近邻 
对 物品 g 的 评分 的 样本 方差 来 计算 (i，g) 的 预测 的 方差 。 如 果 用 户 i 的 近邻 都 没有 对 物 
ang 做 出 评分 ， 那么 样本 方差 是 co。 

2) 在 基于 物品 的 近邻 方法 中 ， 可 以 根据 用 户 i 对 与 最 相似 的 物品 的 评分 来 计算 其 预 
测 的 方差 。 如 果 用 户 i 没有 对 任何 与 g 相似 的 物品 进行 评分 ， 那 么 样本 方差 为 c 。 因 此 ， 
该 方法 趋向 于 引导 用 户 对 不 同 的 物品 评分 从 而 自然 地 增加 推荐 系统 的 覆盖 程度 。 在 这 个 意 
义 上 ， 这 种 方法 对 冷 启 动 适 应 良好 。 

3) 在 贝 叶 斯 模型 中 ， 贝 叶 斯 分 类 器 (参见 第 3 章 ) 被 用 于 预测 评分 。 考 虑 二 进 制 评 
分 的 情况 ， 其 中 对 值 1 的 预测 的 后 验 概率 为 加。 在 这 种 情况 下 ， 不 确定 性 被 量化 为 1 一 
| 加 一 0.5| 。 具 有 最 大 不 确定 性 的 物品 被 选择 用 于 查询 。 
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4) 可 以 使 用 多 个 模型 来 预测 评分 。 当 不 同 的 模型 的 预测 不 相同 时 ， 评 分 被 认为 是 不 
确定 的 。 不 同 模型 上 预测 的 方差 可 以 用 来 量化 不 确定 性 。 

上 述 方法 是 对 分 类 中 的 技术 的 简单 修改 。 它 以 一 种 自然 的 方式 来 计算 不 确定 性 ， 从 而 
适用 于 大 多 数 协同 过 滤 算法 。 在 协同 过 滤 中 ， 也 可 以 启发 式 地 将 一 些 附加 因素 〈 例 如 ， 乘 
法 ) 与 不 确定 性 组 合 : 

1) 可 以 包括 一 个 用 户 可 能 对 一 个 物品 进行 评分 的 概率 的 因子 。 这 是 因为 用 户 无 法 为 
尚未 消费 的 物品 提供 评分 。 考 虑 隐 式 反馈 和 矩阵， 如 果 用 户 已 经 评分 物品 〈 不 考虑 实际 评分 
值 )， 则 项 的 值 为 1， 否则 为 0。 使 用 任何 协同 过 滤 算 法 对 评分 做 出 的 预测 实际 表示 了 用 户 
将 评价 该 物品 的 概率 。 

2) [513] 中 建议 不 应 该 查询 非常 受 欢 迎 的 物品 ， 因 为 它们 的 评分 通常 不 代表 其 他 物品 。 

注意 ， 很 少 有 关于 主动 学 习 方 法 在 协同 过 滤 的 上 下 文中 如 何 实际 执行 的 实验 结果 。 因 
此 ， 这 一 领域 有 很 大 的 机 会 供 进一步 研究 。 


13.6.2 基于 性 能 的 模型 


查询 评分 的 目标 是 为 了 提高 预测 的 精度 并 减少 对 当前 可 用 项 的 预测 的 不 确定 性 。 在 基 
于 性 能 的 模型 中 ， 通 过 查询 某 些 数据 点 ， 使 得 在 增加 了 新 的 查询 评分 后 ， 对 剩余 项 的 预测 
精度 能 产生 最 佳 的 期 望 性 能 或 最 佳 的 确定 性 。 注 意 ， 基 于 不 确定 性 的 模型 集中 在 当前 查询 
实例 的 预测 特性 上 ， 而 基于 性 能 的 模型 集中 于 所 添加 的 实例 对 当前 可 用 项 的 预测 的 影响 。 
要 确定 在 查询 了 一 个 用 户 一 物品 组 合 的 评分 之 后 会 产生 什么 后 果 是 具有 挑战 性 的 ， 因 为 预 
期 性 能 必须 在 实际 查询 评分 之 前 被 计算 。 贝 叶 斯 方法 用 于 计算 此 预期 性 能 。 相 应 的 技术 在 
[18, 22] PHR. 


13.7 推荐 系统 中 的 隐私 


协同 过 滤 应 用 程序 在 很 大 程度 上 依赖 于 对 多 个 用 户 的 反馈 的 收集 。 在 协同 过 滤 应 
用 程序 中 ， 用 户 需 要 指定 物品 的 评分 。 这 些 评分 反映 了 用 户 的 兴趣 、 观 点 、 性 格 ， 等 
等 。 伴 随 评分 物品 而 来 的 私人 信息 的 暴露 带 来 了 许多 挑战 ， 因 为 它 使 得 用 户 不 愿意 去 
贡献 评分 。 

所 有 隐私 保护 方法 都 是 以 某 种 方式 改变 数据 ， 以 降低 其 表示 的 精确 性 。 这 样 做 是 为 了 
增加 隐私 。 其 权衡 是 让 数据 表示 变 得 模糊 。 因 此 ， 控 掘 算法 不 再 有 效 。 有 两 类 技术 被 用 于 
保护 隐私 : 

1) 数据 收集 时 的 隐私 : 在 这 些 技 术 中 ， 数 据 收集 的 方法 被 修改 ， 使 得 不 收集 单独 的 
评分 。 相 反 ， 采 用 分 布 式 协议 [3 引 或 扰动 技术 [35'38,484,485] 以 扰动 的 方式 或 在 聚集 中 收集 数 
据 。 通 常 ， 需 要 专用 (安全) 的 用 户 界 面 和 数据 收集 插件 才能 实现 该 方法 。 此 外 ， 对 收集 
来 的 数据 使 用 专门 的 数据 挖掘 方法 ， 因 为 许多 这 些 技术 使 用 聚集 分 布 〈 而 不 是 对 单个 数据 
记录 ) 进行 挖掘 。 

这 种 方法 的 优点 是 用 户 确信 没有 单个 实体 可 以 访问 他 们 的 私人 数据 。 虽 然 数据 的 隐私 
集合 提供 了 最 严格 的 隐私 形式 ， 这 方面 的 大 部 分 工作 还 仅 在 研究 阶段 。 据 我 们 所 知 ， 还 没 
有 这 种 系统 的 大 规模 的 商业 实现 。 其 部 分 原因 是 这 样 的 系统 通常 需要 用 户 投 入 更 多 的 努力 
来 获得 特殊 接口 的 访问 权限 ， 同 时 还 需要 在 聚集 数据 变 得 可 用 后 数据 挖掘 者 投入 更 多 的 
努力 。 

2) 数据 发 布 时 的 隐私 : 在 大 多 数 实 际 设置 中 ,一 个 受信 任 的 实体 (例如 Netflix 或 
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IMDb) 可 以 访问 其 随时 间 收 集 的 所 有 评分 数据 。 在 这 样 的 情况 下 ， 受 信任 实体 可 能 希望 
将 数据 发 布 到 更 广泛 的 技术 社 群 以 实现 协同 过 滤 领 域 的 进一步 发 展 。 这 样 的 例子 包括 Net- 
flix Prize 数据 集 ， 它 在 标识 评分 之 后 被 发 布 。 在 这 种 情况 下 ， 使 用 & 匿名 模型 62 保护 隐 
私 。 通 常 ， 这 样 的 方法 使 用 基于 群 组 的 匿名 化 技术 ， 其 中 最 小 规模 的 组 中 的 记录 变 得 不 可 
区 分 。 这 是 通过 对 数据 记录 上 所 挑选 的 属性 进行 小 心 扰动 来 实现 的 ， 这 样 就 不 能 将 公开 的 
信息 与 这 些 记 录 做 连接 从 而 精确 识别 记录 的 主题 。 这 样 的 系统 更 常见 ， 并 且 具 有 比 第 一 种 
情况 更 广泛 的 适用 性 。 

上 述 两 种 模型 具有 不 同 的 权衡 。 第 一 个 模型 提供 更 强 的 隐私 保证 ， 因 为 个 人 的 评分 不 
存储 在 任何 地 方 ， 至 少 是 不 以 具体 的 形式 存储 。 在 某 些 情况 下 ， 评 分 只 以 聚集 的 方式 存 
储 。 因 此 ， 这 种 方法 提供 了 更 大 的 隐私 保证 。 但 另 一 方面 ， 对 这 种 形式 的 数据 收集 很 难 采 
用 现成 的 协同 过 滤 算 法 。 这 是 因为 数据 或 者 被 干扰 得 厉害 ， 或 者 是 基本 表示 已 更 改 为 某 种 
聚集 形式 。 在 使 用 基于 群 组 匿名 化 的 方法 时 ， 隐 私 保证 通常 较 弱 。 而 另 一 方面 ， 释 放 的 数 
据 记 录 通 常 与 原始 数据 具有 相同 的 格式 。 因 此 ， 在 这 些 情况 下 ， 更 容易 使 用 现成 的 协同 过 
滤 算 法 。 下 面 对 基 于 群 组 匿名 化 模型 进行 了 简要 概述 。 

基于 群 组 的 匿名 化 方法 通常 是 可 信 实 体 在 数据 发 布 时 使 用 。 其 典型 目标 是 防止 识别 出 
数据 记录 的 主题 。 例 如 ， 当 Netflix 发 布 其 评分 数据 集 ， 数 据 记 录 的 主题 要 避免 被 识别 。 此 
外 ,为 了 让 数据 记录 的 群 组 变 得 不 可 区 分 ， 记 录 的 属性 通常 被 扰乱 。 这 些 方 法 的 基本 思想 
是 充分 扰乱 数据 记录 ， 以 使 攻击 者 无 法 把 记录 与 其 他 公开 可 用 的 数据 相 匹配 ， 以 确定 其 记 
录 的 主题 。 一 些 常见 的 以 分 组 方式 干扰 数据 记录 的 模型 包括 上 匿名 化 [552 、 冷 凝 Conden- 
sation)[27] 、 公 多样 性 5386] 和 寺 接 近 552] 。 读 者 可 以 阅读 13. 10 节 对 常见 的 隐私 保护 方法 的 
细节 做 进一步 的 了 解 。 下 面 我 们 简要 讨论 一 个 基于 冷凝 的 方法 ， 它 能 很 容易 地 被 应 用 于 协 
同 过 滤 中 。 我 们 也 会 讨论 当 这 些 方法 用 于 高 维 数据 时 面临 的 一 些 挑战 。 


13.7.1 基于 冷凝 的 隐私 


基于 冷凝 的 方法 最 初 是 为 完全 指定 的 多 维 数据 记录 所 设计 的 CE 。 然 而 ， 该 方法 也 可 
以 容易 地 被 用 于 不 完全 指定 的 数据 记录 。 算 法 的 输入 之 一 是 匿名 级 别 p， 其 定义 了 我 们 希 
望 彼此 不 可 区 分 的 行 的 数目 。z 的 值 越 大 ， 匿 名 性 越 高 ， 但 降低 了 修改 后 数据 的 精度 。 考 
虑 一 个 不 完全 指定 的 mXn 评分 矩阵 R: 

D 将 R 的 行 分 成 聚 徐 C1…C:， 使 得 每 个 簇 至 少 包含 m 条 记录 。 

2) 对 于 每 个 簇 C-， 生 成 1C. | >m 条 合成 记录 ， 使 得 与 徐 中 记录 的 数据 分 布 一 致 。 

这 两 个 步骤 都 需要 考虑 矩阵 R 中 的 行 是 未 完全 指定 的 。 对 于 不 完全 数据 ， 聚 类 方法 的 
修改 相对 容易 。 例 如 ，k 中 值 算法 在 中 值 计算 中 可 以 只 用 已 指定 的 项 。 类 似 地 ， 距离 的 计 
算 也 可 以 仅 使 用 已 指定 的 项 ， 然 后 用 已 观测 维度 的 数量 进行 妇 一 化 。 类 似 地 ， 同 时 从 C, E 
成 合成 数据 记录 时 ， 可 以 在 评分 值 上 使 用 简单 的 多 变量 伯 努 利 分 布 对 每 个 物品 建 模 。 这 个 
多 变量 伯 努 利 分 布 是 从 簇 中 记录 的 评分 分 布 导出 的 。 必 须 注 意 ， 数 据 中 物品 的 评分 次 数 等 
FEE PTH HARK. 

这 种 生成 合成 数据 的 方法 具有 两 个 主要 优势 。 第 一 是 合成 数据 与 原始 评分 矩阵 的 格式 
相同 ， 人 允许 应 用 任何 现成 的 协同 过 滤 算 法 ; 第 二 是 合成 数据 的 匿名 通常 更 加 安全 。 这 种 方 
法 也 可 以 推广 到 动态 的 环境 中 [27]。 


13.7.2 高 维 数 据 的 挑战 
评分 数据 通常 是 高 维 的 。 例 如 ， 典 型 的 评分 和 矩阵 可 以 包含 数 千 个 维度 。 此 外 ， 一些 用 
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户 可 能 很 容易 地 指定 出 多 于 10 或 20 个 评分 。 这 种 情况 下 ， 即 使 数据 记录 被 干扰 ， 也 很 难 
用 基于 分 组 的 匿名 化 方法 来 保护 这 些 用 户 的 隐私 。 例 如 ， 如 果 特 定 源 释放 了 一 组 未 识别 的 
评分 ， 攻 击 者 可 能 使 用 了 来 自 不 同 源 的 未 识别 的 评分 ， 对 两 个 数据 集 进行 匹配 从 而 确定 未 
识别 记录 的 主题 。 指 定 评分 的 数量 越 大 ， 则 反 识 别 记录 就 越 容 易 。 在 [30] 中 已 经 证 明 ， 
为 了 生成 一 个 有 力 的 攻击 ， 只 需要 在 一 行 中 有 约 10 一 20 个 指定 的 值 。 著 名 的 Netflix Prize 
数据 集 就 被 这 种 方法 攻击 [0 。 高 维 数据 的 挑战 并 不 是 微不足道 的 ， 对 于 匿名 化 限制 仍 存 
在 着 理论 上 的 障碍 Bo9] 。 开 发 新 的 高 维和 稀 玻 数据 集 的 匿名 化 方法 仍然 是 一 个 开放 的 研究 
领域 。 


13.8 一 些 有 趣 的 应 用 领域 


在 本 节 中 ， 我 们 将 研究 推荐 系统 的 一 些 有 趣 的 应 用 领域 。 本 节 的 目标 是 研究 不 同 应 用 
领域 中 推荐 系统 的 应 用 ， 以 及 在 每 个 领域 中 出 现 的 具体 挑战 。 一 些 例子 如 下 : 

1) 查询 推荐 : 一 个 有 趣 的 问题 是 如 何 使 用 Web 日 志向 用 户 推荐 查询 。 有 关 查 询 推 荐 
是 否 应 该 看 作 个 性 化 应 用 还 不 清楚 ， 因 为 推荐 是 一 种 典型 的 特定 会 话 ( 例 如 ,依赖 于 用 户 
在 短期 会 话 中 的 历史 行为 )， 它 不 需要 了 解 用 户 长 期 的 行为 。 因 为 查询 的 提出 往往 是 在 用 
户 的 重新 识别 机 制 不 可 用 的 情况 下 。 这 个 主题 的 细节 我 们 将 不 再 讨论 ， 相 关 文 献 在 13. 10 
节 中 。 

2) 门户 内 容 和 新 闻 个 性 化 : 许多 在 线 门 户 具有 强大 的 用 户 识别 机 制 ， 通过 该 机 制 可 
以 返回 被 识别 的 用 户 。 在 这 种 情况 下 ， 提 供给 用 户 的 内 容 可 以 个 性 化 。 新 闻 个 人 化 引擎 
(例如 Google 新 闻 ) 也 使 用 此 方法 ， 其 中 Gmail 账户 用 于 用 户 识别 。 新 闻 个 性 化 通常 基于 
包含 用 户 行为 (点 击 〉 的 隐 式 反馈 ,而 不 是 明确 的 评分 。 

D 计算 广告 : 计算 广告 是 一 种 推荐 形式 ， 因 为 公司 很 希望 基于 相关 上 下 文 〈 网 页 或 
搜索 查询 ) 为 用 户 识别 广告 。 因 此 ， 推 荐 系统 的 很 多 想法 被 直接 用 于 计算 广告 领域 。 

4) 互 串 推荐 系统 : 在 这 些 情况 下 ， 用户 和 物品 都 有 偏好 而 不 仅仅 是 用 户 )。 例 如 ， 
在 线 约会 应 用 程序 中 ， 两 者 (男性 和 女性 ) 都 有 偏好 ， 并 且 成 功 的 推荐 可 以 仅 通过 满足 双 
方 的 偏好 而 创建 。 互 惠 推荐 系统 与 第 10 章 讨论 的 链 路 预测 方法 密切 相关 。 

本 章 将 概述 不 同 的 应 用 程序 ， 特 别 关注 以 上 的 门户 内 容 个 性 化 、 计 算 广 告 和 互惠 推荐 
系统 。 基 本 想法 是 给 读者 一 种 如 何在 各 种 场景 中 使 用 推荐 技术 的 感觉 。 


13.8.1 门户 内 容 个 性 化 


许多 新 闻 门 户 通过 使 用 用 户 过 去 的 访问 历史 为 他 们 提供 个 性 化 新 闻 。 这 样 的 个 性 化 系 
统 的 示例 是 Google 新 闻 引 擎 。Google 有 强大 的 使 用 Gmail 账户 的 用 户 身 份 识别 机 制 。 这 
种 机 制 用 于 跟踪 用 户 点 击 行为 的 历史 记录 。 历 史 被 用 来 给 用 户 推 荐 感 兴趣 的 新 闻 。 许 多 门 
户 网 站 也 用 类 似 的 方法 向 用 户 推荐 内 容 。 所 有 这 些 情况 的 主要 假设 是 用 户 过 去 的 操作 记录 
是 可 用 的 。 

13. 8. 1. 1 动态 分 析 器 

动态 分 析 器 [3 中 是 一 种 将 协同 技术 与 基于 内 容 的 技术 相 组 合 的 门户 内 容 个 性 化 引擎 。 
该 系统 可 以 用 于 任何 形式 的 门户 内 容 个 性 化 ， 包 括 新 闻 个 性 化 。 该 方法 包含 几 个 步骤 ， 其 
中 大 多 数 是 定期 地 重复 地 刷新 需要 随时 间 更 新 的 汇总 统计 ， 以 防止 它们 过 时 。 这 些 汇总 统 
计 被 用 于 提供 实时 推荐 。 整 体 方法 包含 以 下 步骤 : 

D 〈 定 期 更 新 ) 使 用 门户 网 站 中 文档 的 样本 来 创建 群 组 。 使 用 半 监 督 的 聚 类 方案 129) 
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进行 聚 类 。 聚 类 监督 是 在 属于 语义 相关 主题 的 文档 样本 的 帮助 下 完成 的 。 这 些 样品 被 作为 
种 子 ， 使 用 聚集 和 上 均值 方法 的 组 合 来 创建 聚 类 。 因 此 ， 簇 中 包含 了 在 语义 上 很 重要 的 
类 别 。 

2) 〈 定 期 更 新 ) 用 户 访问 日 志 与 上 述 聚 类 结合 以 创建 用 户 画 像 。 用 户 画 像 包 含 了 用 户 
对 属于 每 个 复 的 文档 的 访问 次 数 的 统计 。 因 此 ， 用 户 画 像 是 一 个 多 维 记录 ， 其 维度 与 簇 数 
目 相同 。 

3 (定期 更 新 ) 用 户 画 像 使 用 高 维 聚 类 方法 被 聚集 成 群 组 〈peer group) 。 几 个 高 维 聚 
类 方法 在 L19] 中 讨论 。 

4) (在 推荐 时 的 在 线 阶段 ) 用 基于 近邻 的 方法 与 这 些 用 户 群 组 一 同 被 用 于 执行 推荐 。 
对 于 任何 给 定 的 目标 用 户 ， 最 近 群 组 中 的 频繁 类 别 构成 了 相关 的 推荐 类 别 。 也 可 以 向 目标 
用 户 使 用 下 面 描述 的 方法 来 推荐 个 人 文档 。 

仍然 要 解释 执行 推荐 的 最 后 步骤 是 如 何 执行 的 。 对 于 给 定 用 户 ， 第 一 步 是 确定 离 她 最 
近 的 群 组 。 这 是 通过 计算 她 的 画像 和 各 个 群 组 的 质心 之 间 的 距离 来 实现 的 。 最 接近 的 群 组 
被 称 为 她 的 近邻 。 由 该 近邻 访问 的 所 有 文档 的 频率 被 有 效 地 从 日 志 的 索引 版 本 中 确定 。 此 
近邻 中 最 常 访 问 的 且 未 被 目标 用 户 所 访问 的 文档 被 作为 相关 的 推荐 呈现 给 目标 用 户 。 

13.8.1.2 Google 新 闻 个 性 化 

Google 新 闻 个 性 化 引擎 0 5 是 一 个 类 似 动态 分 析 器 模型 的 问题 陈述 。 因此， 用 户 点 击 
的 隐 式 反馈 数据 集 在 这 个 场景 中 是 可 用 的 。 用 户 的 Gmail 账户 在 Google 新 闻 中 提供 了 强 
大 的 识别 机 制 。 当 用 户 登 录 并 访问 网 页 时 ， 会 存储 其 点 击 行为 。 目 标 是 利用 所 存储 的 用 户 
点 击 的 统计 数据 向 这 些 用 户 从 候选 项 列表 工 中 提供 推荐 。 我 们 暂且 假设 候选 列表 工 已 被 给 
出 。 稍 后 ， 我 们 将 讨论 如 何 生成 候选 列表 。 

Google 新 闻 系 统 使 用 与 动态 分 析 器 非常 不 同 的 算法 。 动 态 分 析 器 被 设计 用 于 单个 网 
站 ， 而 Google 新 闻 系 统 被 设计 用 于 Web 级 环境 。 该 方法 的 基本 思想 是 使 用 基于 相似 度 的 
机 制 做 出 推荐 。 作 为 基于 用 户 的 近邻 算法 ， 用 户 与 已 访问 过 特定 物品 的 其 他 用 户 的 加 权 相 
似 度 被 用 于 做 出 推荐 。 令 ri 为 指示 器 变 量 ， 如 果 用 户 i 已 经 访问 过 物品 g， 取 值 为 1， 否 
则 ， 取 值 为 0。 注 意 到 六 可 以 被 视 为 评分 和 矩阵 的 隐 式 反馈 的 版 本 。 相 似 的 ， 让 wy 为 用 户 i 
和 用 户 j 在 网 页 访问 模式 上 的 相似 度 。 然 后 ， 用 户 i 访问 新 物品 g 的 预测 倾向 pi; 被 定义 为 
如 下 : 


big = mi (13-13) 


ji 

由 于 等 级 六 被 假设 是 二 进 制 的 ， 因 此 预测 倾向 pa 也 可 以 用 一 个 合适 的 阔 值 被 二 进 制 化 。 
相似 度 可 以 以 各 种 方式 被 计算 。 例 如 ， 可 以 把 相似 度 测度 定义 为 两 个 用 户 对 物品 访问 的 
Pearson 相关 系数 或 余弦 相似 度 。 

上 述 公 式 是 对 基于 用 户 的 协同 过 滤 机 制 的 直接 泛 化 。 注 意 ,， 在 Web 级 环境 中 计算 预 
测 倾向 是 代价 很 高 的 ， 因 为 每 对 用 户 之 间 的 相似 度 w 需要 预计 算 。 成 对 计算 的 代价 很 高 ， 
并 且 右 侧 求 和 还 将 包含 与 用 户 数目 一 样 多 的 项 。 因 此 ，[L175] 中 的 工作 还 提出 了 一 些 更 有 
效 的 基于 模型 的 替代 方案 。 这 些 方法 使 用 聚 类 来 加 速 计 算 。 此 外 ， 聚 类 方法 在 降 品 上 有 一 
些 优点 ， 从 而 更 有 效 地 进行 协同 过 滤 。 

在 基于 模型 的 技术 中 ， 用 户 被 概率 地 或 确定 性 地 分 配给 具有 相似 访问 行为 的 群 组 。 
换 甸 话说 ， 拥 有 类 似 访问 模式 的 用 户 通 常 以 较 高 的 概率 属于 类 似 的 群 组 。 所 使 用 的 聚 类 
模式 有 两 种 ， 分 别 为 MinHash 和 PLSI， 它 们 中 的 任 一 个 可 以 被 用 于 实现 该 方法 。 前 者 
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将 用 户 硬 分 配 到 群 组 中 ， 后 者 将 用 户 软 分 配 到 群 组 中 。 这 些 方法 的 更 多 细节 将 在 本 节 后 
面 讨论 。 

假设 总 共有 m 个 簇 被 定义 ， 并 且 用 户 守 到 得 和 & 的 比例 由 表示。 在 确定 性 聚 类 中 ， 
fx 的 值 要 么 是 0， 要 么 是 1， 而 在 软 聚 类 中 ，fa 的 值 在 (0，1) Zi. Ria, AP i 访问 
物品 g 的 倾向 被 定义 为 : 


be = Do Se Da Tin (13-14) 
k=1 js fy >0 
通过 包含 fr 可 以 进一步 优化 这 个 公式 ， 尽 管 在 [175] 中 没有 提 及 : 
Par >) fe sir» (13-15) 
k=] p 
在 聚 类 是 硬 分 配 时 ， 比 如 (Minhash 模式 )， 这 个 表达 式 可 以 简化 为 如 下 : 
pi = S$} CommonClusters(i,j) © Tig (13-16) 


这 里 ，CommonClusters(i，7) 对 应 于 用 户 i 和 j 共同 出 现 的 公共 集群 的 数量 。 此 外 ， 如 
果 仅 仅 执 行 一 次 严格 分 割 的 聚 类 ， 则 CommonClustersG, 站 的 值 为 0 或 1。 另 一 方面 ， 
如 果 聚 类 用 快速 随机 方法 重复 执行 若干 次 ，CommonClusters(i1，j) 的 值 等 于 用 户 i 和 j 
在 同一 群集 中 出 现 的 次 数 。 对 于 动态 数据 集 ， 隐 式 反 馈 “ 评 分 ”六 的 值 可 以 与 时 间 训 减 
HHR. 

此 外 ， 将 共同 访问 得 分 加 入 由 聚 类 产生 的 得 分 中 。 共 同 访问 得 分 在 原理 上 类 似 于 基于 
物品 的 算法 。 当 两 个 物品 在 预定 时 间 跨 度 内 由 同一 用 户 访问 ， 则 这 两 个 物品 是 共同 访问 
的 。 对 于 每 个 物品 ， 与 其 他 物品 共同 访问 的 数量 (时间 衰减 ) 是 动态 维护 的 。 对 于 目标 用 
户 iz 和 目标 物品 g， 需 要 确定 物品 g 的 频繁 共同 访问 物品 是 否 也 存在 于 用 户 i 的 最 近 访 问 物 
品 中 。 对 于 每 个 这 样 的 存在 ， 归 一 化 的 值 被 添加 到 公式 13-14) 的 推荐 得 分 中 。 可 以 使 
用 专门 的 数据 结构 来 有 效 地 实现 该 操作 。 

聚 类 方法 

如 前 所 述 ， 我 们 采用 MinHash 和 PLSI 两 种 聚 类 模式 。MinHash 模式 基于 由 用 户 共 
同 访问 的 物品 集合 上 的 Jaccard 系数 所 定义 的 内 部 相似 性 对 用 户 进 行 隐 式 地 聚 类 。 虽 然 
MinHash 方案 是 一 种 随机 桶 类 方法 ， 它 创建 了 确定 性 聚 类 中 ， 其 中 两 个 用 户 属于 同一 簇 
的 概率 与 他 们 的 Jaccard 系数 成 正比 。 另 一 方面 ，PLSI 模式 是 一 种 基于 概率 的 聚 类 方法 ， 
其 中 每 个 点 以 特定 概率 被 分 给 一 个 徐 。MinHash 和 PLSI 方法 详 见 [175]. [175] 中 的 工 
作 描 述 了 如 何 用 MapReduce 来 有 效 实现 这 些 方案 。MapReduce 方法 可 以 将 该 方案 扩展 到 
大 数据 上 。 

候选 列表 生成 

到 目前 为 止 ， 我 们 还 未 对 如 何 为 特定 目标 用 户 i 生成 候选 列表 工 进行 描述 。 有 两 种 方式 
可 以 用 来 生成 候选 列表 。 新 闻 前 端 可 以 新 闻 编 排 、 用 户 i 对 语言 的 偏好 、 故 事 的 新 鲜 度 、 用 
户 守 的 定制 等 来 生成 候选 列表 。 或 者 ， 候 选 列表 可 以 是 以 下 两 个 集合 的 并 : D 和 用 户 i 在 同 
一 簇 中 的 成 员 所 点 击 的 所 有 故事 ;iD 用 户 i 的 点 击 历史 中 所 有 共同 访问 的 故事 集合 。 


13.8.2 计算 广告 与 推荐 系统 


近年 来 ， 随 着 互联 网 逐渐 成 为 内 容 消费 、 信 息 搜索 和 商业 交易 的 重要 媒介 ， 在 线 计 算 
广告 也 已 受到 越 来 越 多 的 关注 。 这 些 行 为 代表 了 用 户 经 常 参与 的 活动 ， 这 给 了 在 线 广告 商 
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机 会 ， 因 为 消费 的 内 容 和 完成 的 交易 能 够 提供 给 被 服务 的 广告 提供 上 下 文 。 用 户 从 事 的 活 
动 通常 显示 了 很 多 关于 用 户 的 信息 ， 可 以 被 用 于 对 该 次 活动 定向 推荐 产品 。 例 如 ， 当 用 户 
使 用 诸如 Google 或 Bing 的 搜索 引擎 查询 关键 词 “ 高 尔 夫 ” 时 ， 除 了 真正 的 搜索 之 外 ， 常 
见 的 还 有 许多 “赞助 搜索 结果 ”。 这 些 赞 助 搜索 结果 是 搜索 引擎 放置 的 广告 ,并 且 通 常 与 
搜索 引擎 查询 ( 即 “ 高 尔 夫 ”) 相关 。 这 种 广告 方法 被 称 为 赞助 搜索 。 一 般 来 说 ， 两 种 最 
常见 的 计算 广告 模型 如 下 : 

1) PARR: 在 这 种 情况 下 ， 搜 索引 擎 作为 媒介 ， 它 负责 将 广告 放置 在 与 用 户 查 询 
结果 的 相 邻 处 。 查 询 结果 为 广告 提供 了 上 正文， 因为 广告 商 和 媒介 的 目标 都 是 显示 与 搜索 
结果 相关 的 广告 。 这 是 因为 用 户 更 有 可 能 点 击 与 搜索 相关 的 赞助 结果 。 这 有 助 于 增加 广告 
商 的 业务 收入 以 及 媒介 公司 的 广告 收入 ， 因 为 搜索 公司 通常 是 基于 来 自用 户 对 广告 搜索 结 
果 的 成 功 点 击 率 或 者 广告 搜索 结果 显示 的 次 数 来 获得 报酬 。 也 可 以 使 用 这 两 种 度量 的 组 合 
来 获取 报酬 。 | 

2) 显示 广告 : 在 这 种 情况 下 ， 内 容 的 发 布 者 (例如 ， 新闻 门户 ) 物理 地 在 与 其 内 容 
相对 应 的 网 页 上 放置 广告 。 因此， 内 容 发 布 者 扮演 媒介 的 角色 。 此 时 ， 网 页 服务 的 内 容 被 
作为 上 下 文 。 例 如 ， 新 闻 门 户 上 正在 显示 关于 高 尔 夫 球 比赛 的 文章 ， 可 能 在 同一 页 面 上 显 
示 与 高 尔 夫 相 关 的 广告 。 内 容 发 布 者 可 以 以 不 同 的 度量 方式 从 广告 商 那里 获取 报酬 。 例 
如 ， 可 以 根据 广告 的 成 功 点击 ， 或 广告 的 成 功 交 易 ， 或 显示 广告 的 次 数 〈 即 印象 数 ) 来 获 
得 报酬 。 也 可 以 使 用 这 些 度 量 的 组 合 。 因 此 ， 显 示 广 告 的 模式 与 赞助 搜索 有 许多 相似 
ZH. 

在 这 两 种 情况 下 ， 都 是 根据 一 个 特定 的 上 下 文 (上 下 文 被 定义 为 用 户 搜索 的 结果 或 显 
示 广 告 的 网 页 的 主题 ), 将 一 个 广告 (类似 于 物品 ) 推荐 给 一 个 用 户 。 在 这 两 种 情况 下 ， 
媒介 商 均 是 提供 广告 上 下 文 的 内 容 的 发 布 者 。 请 注意 ,搜索 结果 也 是 一 种 内 容 发 布 形式 ， 
虽然 它 是 动态 生成 的 ， 并 且 它 是 对 特定 的 用 户 查询 做 出 的 反应 。 此 外 ， 确 保 所 推荐 的 广告 
尽 可 能 地 符合 相关 广告 商 和 媒介 商 的 利益 。 这 种 在 线 广告 场景 中 的 各 种 实体 之 间 的 关系 如 
图 13-3 所 示 。 

计算 广告 方法 和 推荐 系统 之 间 有 有 几 个 重要 的 相似 点 和 区 别 。 广 告 类 似 于 物品 ， 媒 介 商 
扮演 着 用 户 的 推荐 者 。 但 是 ， 在 讨论 把 推荐 技术 用 于 计算 广告 之 前 ， 我 们 需要 先 了 解 它们 
之 间 的 区 别 。 这 有 助 于 我 们 理解 能 有 效 使 用 推荐 方法 的 场景 ， 以 及 为 了 实现 目标 需要 对 原 
有 方法 做 出 的 改动 。 推 荐 和 计算 广告 之 间 的 具体 区 别 如 下 : 

1) 在 传统 的 推荐 系统 中 ， 向 用 户 提供 最 相关 的 推荐 ， 能 给 诸如 Amazon. com 的 推荐 
系统 带 来 最 佳 利 益 。 因 此 ， 用 户 和 推荐 系统 的 兴趣 是 完全 一 致 的 。 在 计算 广告 中 ， 媒 介 商 
由 广告 商 支付 以 给 用 户 推荐 物品 。 这 提高 了 发 布 商 〈 媒 介 商 ) 增加 广告 点 击 率 的 动机 。 广 
告 商 、 发 布 商 和 用 户 的 兴趣 可 能 并 不 是 完全 一 致 的 。 
当 发 布 商 是 由 广告 商 按照 广告 的 展示 次 数 来 支付 报酬 
时 尤其 如 此 。 其 成 本 模型 可 以 从 博弈 论 的 角度 被 理解 ， 
三 个 实体 试图 最 大 化 他 们 的 效用 。 在 许多 情况 下 ,三 例如 ,搜索 引擎 ， 
个 实体 的 利益 或 多 或 少 地 一 致 。 内 容 发 布 者 

2) 传统 推荐 系统 具有 强大 的 用 户 识 别 机 制 。 甚 至 
当 用 户 匿 名 化 时 ， 一 个 返回 的 用 户 的 长 期 历史 仍 是 已 
知 的 。 计 算 广 告 的 情况 与 其 不 同 ， 对 于 一 个 在 搜索 引 图 13-3 在 计算 广告 中 不 同 当 事 人 之 间 
擎 上 提交 搜索 的 用 户 ， 很 可 能 并 没有 保存 该 用 户 的 长 的 关系 


例如 ,搜索 的 查询 
结果 ， 发 布 者 网 页 
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期 历史 行为 。 在 许多 情况 下 ， 有 关 过 去 的 用 户 与 广告 〈 物 品 ) 的 互动 的 数据 甚至 是 不 可 用 
的 。 这 是 特别 重要 的 ， 因 为 推荐 都 是 关于 个 性 化 的 ， 而 计算 广告 都 是 关于 即时 上 下 文 的 。 
然而 ， 有 一 些 网 站 具有 强 用 户 识别 机 制 ， 则 上 下 文 和 个 性 化 都 很 重要 。 例 如 ， 如 果 在 线 报 
纸 有 一 个 登录 机 制 ， 它 可 以 利用 用 户 标 识 提 供 更 相关 的 广告 结果 。 同 样 ，Google 也 提供 
了 使 用 基于 Gmail 的 识别 机 制 执行 个 性 化 搜索 的 能 力 。 

3) 物品 在 推荐 系统 内 具有 长 寿命 。 然 而 ， 在 计算 广告 系统 中 ， 一 个 特定 的 广告 活动 
只 有 很 短 的 寿命 。 因 此 ， 广 告 本 质 上 是 暂时 的 。 然 而 ， 为 了 使 用 推荐 技术 ， 计 算 广 告 可 能 
会 将 相同 主题 的 广告 逻辑 地 表示 成 一 个 “ 伪 一 物品 ”。 

从 上 述 讨论 中 显而易见 ， 计 算 广告 和 推荐 模型 存在 显著 区 别 。 然 而 ， 某 些 情况 下 可 以 
将 推荐 技术 应 用 于 计算 广告 。 

如 果 强 用 户 识别 机 制 可 用 ， 并 且 广 告 商 的 利益 与 发 布 商 的 利益 一 致 时 ， 其 广告 模型 可 
以 被 看 作 一 个 推荐 过 程 。 执 行 建 模 所 需 的 步骤 如 下 : 

1) 为 了 长 期 跟踪 和 分 析 的 目的 ， 假 定 参与 系统 的 〈 识 别 的 ) AP U 的 集合 是 预先 已 
知 的 。 

2) 虽然 广告 活动 是 短暂 的 ， 它 们 仍 被 划分 为 若干 物品 集合 。 例 如 ， 在 相同 类 型 的 高 
尔 夫 球 杆 上 的 两 个 不 同 的 广告 被 当 作 一 个 物品 。 整 个 物品 集 由 工 表示 。 

3) 用 户 动作 ， 诸 如 点 击 广告 的 动作 ， 被 视 为 隐 式 反馈 。 由 于 广告 已 经 合并 到 物品 中 ， 
用 户 操作 可 用 于 创建 用 户 和 物品 之 间 的 隐 式 反馈 。 该 隐 式 反馈 可 以 对 应 于 用 户 动作 的 频率 
并 且 可 以 被 有 效 地 视 为 “评分 ”。 

4) 所 有 的 出 版 源 例如， 搜索 短语 或 网 页 ) 在 适当 的 粒度 级 别 被 分 类 成 离散 的 类 别 
集合 。 这 些 类 别 被 视 为 一 组 固定 的 上 下 文 ， 用 C 表示 。 如 第 8 章 所 讨论 的 ， 附 加 的 上 下 文 
集合 可 以 被 用 于 定义 一 个 三 维 评分 映射 函数 hr: 

AR:UXTXC-> 隐 式 反馈 评分 

这 种 关系 如 图 13-4 所 示 。 该 图 展示 出 了 报纸 的 假设 示例 ， 其 中 所 有 文章 已 经 被 分 类 
为 特定 主题 。 当 用 户 点 击 与 该 网 页 上 特定 主题 相关 的 广告 时 ， 此 信息 被 记录 。 结 果 是 一 个 
多 维 上 下 文 表示 ， 正 如 第 8 章 所 讨论 的 。 图 13-4 与 第 8 章 图 8-1 和 第 11 章 图 11-6 非常 相 
似 。 对 上 下 文敏 感 的 推荐 使 用 多 维 方法 [中 是 一 个 强大 的 技术 ， 它 在 本 书 的 不 同 场景 中 已 经 
反复 出 现 。 

许多 与 第 8 章 相 同 的 技术 可 以 通过 将 它们 作为 物品 ， 用 于 推荐 广告 。 然 而 ， 这 种 技术 
的 使 用 可 能 需要 成 本 信息 进一步 增强 ， 例 如 发 布 商用 于 在 广告 上 具有 成 功 的 点 击 支付 的 金 
额 。 换 句 话 说 ， 成 本 敏感 可 以 使 用 上 下 文 协同 过 滤 算 法 的 变 体 ， 其 中 物品 具有 优先 于 其 他 
的 较 高 的 收益 。 这 可 以 在 预期 收益 方面 通过 对 预测 进行 排名 来 实现 ， 而 不 是 在 点 击 的 预期 
概率 方面 。 基 于 内 容 的 方法 尤其 受 欢迎 1%.142,32?"] ， 并 且 它 们 使 用 内 容 相似 性 来 匹配 网 页 
的 上 下 文 与 广告 中 的 上 下 文 。 

13. 8.2.1 多 臂 赌博 机 方法 的 重要 性 

多 辟 赌 博 机 方法 对 计算 广告 特别 有 用 。 值 得 注意 的 是 ， 多 臂 赌博 机 方法 在 以 下 设置 中 
特别 有 用 : a) 新 物品 一 直 不 断 进 入 系统 ， 以 及 b) 选择 一 个 特别 的 策略 来 精确 计算 收益 。 
在 计算 广告 中 ， 物 品 是 非常 短暂 的 ， 因 此 勘探 和 利用 需要 同时 执行 。 一 个 赌博 机 的 每 个 手 
臂 都 可 以 看 作 是 一 个 广告 。 因 此 ， 赌 博 机 将 不 断 从 系统 中 添加 和 删除 。 此 外 ， 由 于 有 各 种 
类 型 的 上 下 文 与 广告 相关 联 ， 所 以 利用 上 下 文 赌博 机 算法 会 特别 有 效 ， 其 中 广告 的 上 下 文 
〈 例 如， 搜索 引擎 查询 关键 词 或 显示 广告 ) 被 用 于 决定 是 否 投放 广告 。 参 考 13. 3 节 讨 论 的 
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图 13-4 ”在 报纸 显示 广告 的 场景 中 ， 将 广告 表示 为 上 下 文 推荐 (注意 与 图 8-1 和 图 11-6 的 相 
似 性 ) 
多 臂 赌博 机 方法 。 上 下 文 赌博 机 算法 也 能 在 [348] 中 找到 。 

在 许多 情况 下 ， 计 算 广 告 的 场景 不 适合 传统 的 多 臂 赌博 机 框架 。 例 如 ， 发 布 商 可 能 在 
页 面 上 一 次 展示 多 个 广告 ， 并 且 用 户 也 可 以 点 击 呈 现 给 他 们 的 多 个 广告 。 为 了 让 多 臂 赌 博 
机 处 理 这 种 变化 ， 石 板 问题 (slate problem)r2801 被 提出 。 在 这 种 多 臂 赌博 机 的 变形 中 ， 在 
赌 徒 意识 到 奖励 与 尝试 有 关联 之 前 ， 人 允许 他 在 一 次 尝试 中 玩 多 个 赌博 机 。 这 种 允许 一 次 玩 
多 个 赌博 机 的 设置 对 应 了 在 一 个 给 定 网 页 上 放置 多 个 广告 的 场景 。 与 特定 尝试 相关 联 的 奖 
励 等 于 从 各 个 赌博 机 上 所 获得 的 奖励 的 总 和 。 其 对 应 着 在 计算 广告 中 在 一 个 网 页 上 放置 多 
个 广告 (赌博 机 的 播 臂 )。 在 这 个 问题 的 一 种 有 序 变 形 中 ,不同 的 收益 与 广告 在 网 站 中 放 
置 的 位 置 相 关联 。 例 如 ， 排 名 列表 中 较 高 位 置 的 广告 比较 低位 置 的 广告 有 更 高 的 预期 回 
报 。 有 关 计 算 最 优 策略 的 随机 算法 的 详细 信息 请 参见 [290]. 


13. 8.3 互惠 推荐 系统 


计算 广告 的 问题 与 互惠 推荐 的 问题 有 关 [40 。 基 本 思想 是 当 考 虑 对 多 个 具有 不 对 称 兴 
趣 的 利益 相关 人 的 推荐 的 效用 时 ， 推 荐 的 任务 会 发 生 改变 。 这 种 情况 的 一 个 例子 是 在 线 约 
会 [ts%,4823] ， 虽 然 基 本 的 方法 可 以 采用 诸如 雇主 、 雇 员 匹 配 553] 和 导师 一 学 员 003' 52 匹配 。 
甚至 在 第 10 章 中 讨论 的 链 路 预测 问题 也 可 以 看 作 是 一 种 互惠 的 推荐 系统 的 形式 。 一 个 与 链 
接 预 测 特别 相关 的 变形 是 互惠 关系 预测 559 ， 其 中 尝试 预测 在 一 个 有 向 社交 网 络 中 双向 “ 追 
随 者 ”发 生 的 概率 。 传 统 推荐 系统 和 互惠 推荐 系统 之 间 有 几 个 主要 区 别 。 这 些 差异 [so] 对 被 
用 于 这 些 场景 的 算法 的 性 质 造成 了 影响 : 

1) 在 传统 的 推荐 系统 中 ， 用 户 接收 关于 物品 的 推荐 ， 并 且 是 使 用 或 购买 物品 的 唯一 
决定 者 。 另 一 方面 ， 在 如 在 线 约会 的 互惠 推荐 系统 中 ， 用 户 意识 到 交易 的 成 功 取决 于 另 一 
方 的 许可 。 其 实 ， 另 一 方 是 互惠 环境 中 的 “物品 ”。 因 此 ， 在 传统 推荐 系统 中 ， 物 品 是 丰 
富 的 ， 消 费 该 物品 无 需 任何 其 他 方 的 许可 。 而 在 互惠 推荐 系统 中 并 非 如 此 。 

2) 在 传统 的 推荐 系统 中 ， 用 户 和 产品 在 系统 中 都 不 断 地 重复 。 因 此 ， 更 容易 收集 有 
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关 用 户 喜 好 的 数据 。 而 在 互惠 推荐 系统 “〈 例 如 在 线 约会 ) 中 ， 用 户 和 物品 在 系统 中 可 能 只 
出 现 一 次 ， 在 一 次 成 功 的 事务 后 它们 可 能 永远 不 会 重 现 。 因 此 ， 冷 启动 问题 在 互惠 场景 中 
更 加 显著 。 但是， 这 个 问题 对 所 有 互惠 领域 都 存在 。 例 如 ， 在 社交 网 络 的 链 路 预测 问题 
中 ， 结 点 通常 是 持久 的 。 

术语 “互惠 ”是 由 用 户 和 “物品 ”都 具有 偏好 这 一 事实 所 激发 的 ， 并 且 成 功 的 事务 必 
须 是 同时 满足 两 者 的 偏好 。 此 外 ， 可 以 以 对 称 的 方式 查看 该 问题 。 在 雇主 -雇员 匹配 中 ， 
可 以 将 (潜在 ) 雇主 视 为 用 户 ， (潜在 ) 雇员 视 为 物品 ， 或 者 可 以 将 雇主 视 为 物品 ， 雇 员 
视 为 用 户 。 因 此 ， 有 两 种 不 同 的 推荐 同时 出 现 ， 需 要 最 大 化 成 功 交 易 的 可 能 性 。 例 如 ， 如 
果 员 工 对 一 个 特定 的 雇主 非常 感 兴趣 ， 但 雇主 对 该 雇员 的 技能 不 感 兴趣 ， 把 他 们 介绍 给 彼 
此 并 没有 什么 意义 。 

与 由 用 户 行为 产生 的 隐 式 反馈 相 比 ， 在 这 样 的 系统 中 显 式 评分 较 不 常见 。 因 此 ， 大 多 数 
系统 是 基于 隐 式 反馈 数据 ， 其 中 用 户 的 行为 被 用 来 代替 评分 。 例 如 ， 在 线 约会 应 用 中 ， 联 系 
的 发 起 、 消 息 的 交换 或 对 消息 的 响应 被 给 予 了 不 同 级 别 的 权重 作为 兴趣 的 隐 含 表示 。 在 这 样 
的 系统 中 主要 挑战 是 冷 启动 的 问题 ， 因 为 成 功 的 事务 有 从 系统 中 删除 用 户 和 物品 的 倾向 。 

在 冷 启动 问题 很 严重 的 情况 下 ， 以 内 容 为 中 心 的 方法 可 以 直接 或 间接 地 发 挥 关 键 作 
用 。 在 直接 方法 中 ， 可 以 在 推荐 技术 内 使 用 以 内 容 为 中 心 的 方法 ， 以 补偿 评分 的 缺乏 。 此 
外 ， 在 这 样 的 系统 中 ， 用 户 和 物品 常常 有 描述 性 画像 ， 这 也 促进 了 对 以 内 容 为 中 心 的 方 
法 的 使 用 。 第 二 种 处 理 用 户 和 物品 的 非 持久 性 问题 的 (间接 ) 方法 是 创建 持久 的 表示 。 例 
如 ,考虑 作业 匹配 应 用 。 对 于 系统 中 每 个 发 布 的 作业 ， 可 以 把 过 去 发 布 的 类 似 的 作业 当 作 
这 个 作业 的 实例 。 这 种 “相似 性 ”是 基于 以 内 容 为 中 心 的 属性 来 定义 的 。 类 似 地 ， 对 于 系 
统 中 的 每 个 候选 者 ,可 以 将 过 去 的 类 似 的 候选 者 视 为 该 候选 者 的 实例 。 在 网 上 约会 应 用 
中 ,可 以 将 具有 相似 简 档 的 (过 期 的 ) 用 户 视 为 当前 用 户 画像 的 实例 。 过 去 代表 之 间 的 成 
功 事务 可 被 视 为 它们 当前 化 身 之 间 的 伪 事 务 。 历 史 表 示 之 间 的 成 功 事 务 可 以 被 看 作 它们 当 
前 化 身 的 伪 事 务 。 这 种 伪 事 务 的 权重 可 以 通过 代表 用 户 和 “物品 ”的 当前 化 身 和 过 去 之 间 
的 相似 度 函数 来 计算 。 可 以 使 用 此 增强 的 数据 集 ， 结 合 各 种 协同 过 滤 和 链 路 预测 方法 进行 
预测 。 通 常 可 以 向 男 一 个 人 推荐 用 户 一 物品 对 ， 即 使 当 伪 事 务 已 经 存在 于 它们 之 间 。 注 意 
一 些 伪 事 务 可 能 相当 嗜 杂 和 不 可 靠 。 但 是 ， 由 于 底层 推理 方法 使 用 了 数据 集 的 聚集 结构 ， 
预测 的 健壮 性 可 能 很 好 。 在 伪 事 务 嗜 杂 的 情况 下 ， 相 应 的 用 户 一 物品 对 不 太 可 能 被 预测 算 
法 推荐 ， 例 如 健壮 的 矩阵 分 解 。 

EFE, 我 们 将 对 互惠 推荐 系统 的 两 种 常见 的 关键 技术 给 出 简要 描述 。 然 而 ， 由 于 这 
是 一 个 新 兴 领 域 ， 我 们 认识 到 这 些 方法 只 触 碰 到 这 一 领域 的 表面 。 还 有 更 大 的 机 会 存在 于 
这 个 领域 ， 等 待 进一步 的 研究 。 

13.8.3.1 利用 混合 方法 

在 这 些 方法 中 ， 两 个 传统 的 推荐 方法 被 构造 出 来 ， 分 别 对 应 着 两 个 互惠 方 的 喜好 。 然 
后 ， 这 两 个 互惠 方 的 预测 被 组 合 起 来 。 例 如 ， 在 一 个 作业 匹配 应 用 中 ， 对 于 某 个 雇主 ， 一 
个 传统 的 推荐 系统 及 1 可 用 于 为 其 生成 潜在 员工 的 排名 列表 。 然 后 ， 对 于 某 个 员工 ,一 个 
传统 的 推荐 系统 RR 可 用 于 为 其 生成 潜在 雇主 的 排名 列表 。 最 后 将 这 两 个 推荐 列表 的 结果 
结合 起 来 ， 使 得 事务 成 功 的 概率 最 大 化 。 组 合 方法 可 以 使 用 在 第 6 章 讨论 的 加 权 混 合 方 
法 。 如 第 6 章 所 讨论 的 ， 权 重 可 以 使 用 线性 回归 方法 学 习 ， 其 中 观察 数据 由 过 去 的 成 功 的 


O 在 传统 推荐 系统 中 ， 物 品 比 用 户 更 有 可 能 拥有 描述 性 画像 。 
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交易 定义 。 在 冷 启动 没有 足够 的 观察 数据 的 情况 下 ， 可 以 使 用 简单 平均 或 特定 域 权重 。 如 
果 其 中 一 方 比 男 一 方 有 更 重要 的 偏好 时 ， 则 可 以 使 用 级 联 混 合 。 例 如 ， 在 求职 者 数量 远 远 
大 于 工作 数量 的 情况 下 ， 推 荐 系统 可 以 选择 优先 考虑 雇主 利益 在 员工 利益 之 上 。 在 这 样 的 
设置 中 ， 级 联 混合 是 理想 的 ， 因 为 在 级 联 混 合 中 ， 第 一 级 联 自然 优先 于 第 二 级 联 。 

在 决定 如 何 将 推荐 相 结合 上 有 许多 其 他 因素 也 可 以 起 到 重要 作用 。 例 如 ， 双 方 中 的 一 方 
可 能 是 自然 地 主动 〈 即 发 起 接触 )， 另 一 方 可 能 是 自然 反应 的 《〈 即 响应 初始 接触 ) 。 在 这 种 情 
况 下 ， 混 合 的 性 质 可 以 取决 于 系统 满足 主动 方 和 被 动 方 的 相对 兴趣 。 例 如 ， 可 以 在 被 动 当 事 
人 不 拒绝 建议 的 条 件 下 ， 以 主动 方 的 兴趣 为 主 。 来 自 被 动 方 的 重复 拒绝 成 本 很 高 ， 并 且 可 以 
影响 系统 的 普及 。 因 此 ， 可 以 创建 两 个 模型 : 第 一 个 模型 及 计算 主动 方 可 能 喜欢 的 “ 物 
品 ”， 第 二 个 模型 尺 : 计算 反应 方 ( 即 “物品 ”) 不 喜欢 的 用 户 。 第 二 个 模型 的 思想 是 从 第 一 
个 模型 中 删除 反应 方 不 喜欢 的 推荐 物品 。 这 些 模型 的 各 种 组 合 方法 在 [482] 中 讨论 。 

由 于 冷 启动 问题 ， 推 荐 系统 及 ! MR, 通常 是 以 内 容 为 中 心 的 系统 。 然 而 ， 在 一 些 情 况 
下 ， 评 分 数据 可 以 通过 将 过 去 的 用 户 和 物品 视 为 当前 在 系统 中 的 相似 用 户 的 实例 ， 并 且 在 
用 户 和 物品 之 间 构 造 伪 交易 来 进行 扩展 。 在 这 种 情况 下 ， 协 同 过 滤 方 法 可 以 被 使 用 ， 这 是 
因为 可 以 从 伪 交 易 中 使 用 附加 数据 。 

13. 8. 3.2 利用 链 路 预测 方法 

当 冷 启动 问题 不 是 很 严重 或 者 可 以 用 来 自 类 似 用 户 和 物品 的 数据 来 增加 评分 数据 时 ， 可 
以 在 系统 中 采用 链 路 预测 方法 。 用 于 定向 和 非 定向 的 链 路 预测 的 矩阵 分 解 方法 在 第 10 章 
10.4.5 节 中 讨论 过 。 在 这 些 情 况 下 ， 可 以 构造 一 个 二 分 网 络 ， 其 中 两 个 互惠 方形 成 网 络 的 两 
个 分 区 。 例 如 ， 一 个 分 区 可 能 是 雇主 ， 另 一 个 分 区 可 能 是 雇员 。 在 约会 应 用 中 ， 一 个 分 区 可 
能 对 应 于 男性 ， 另 一 个 分 区 可 能 对 应 于 女性 。 该 网 络 中 的 边缘 对 应 于 〈 之 前 ) 这 些 分 区 中 的 
结 点 之 间 的 成 功 交易 (或 它们 的 类 似 代 表 )。 这 些 情 况 分 别 如 图 13- 5a 和 图 13- 5b 所 示 。 然 
而 ， 在 其 他 应 用 中 ， 基 础 图 可 能 不 是 二 分 的 。 例 如 ， 在 一 个 同性 约会 应 用 中 ， 偏 好 图 可 能 
不 是 二 分 的 。 在 一 些 情况 下 ， 当 偏好 不 对 称 时 ， 基 础 图 可 能 会 是 有 向 的 。 在 所 有 这 些 情况 
下 ， 在 10.4.5 节 讨 论 的 非 对 称 和 对 称 和 矩阵 分 解 方法 可 能 非常 有 用 。 链 路 预测 问题 实际 是 
互惠 推荐 系统 的 特殊 情况 这 一 事实 并 不 令 人 意外 。 在 使 用 代表 并 且 以 嗜 杂 的 方式 构建 链接 
的 情况 下 ， 可 以 基于 第 12 章 的 思想 ， 使 用 健壮 的 矩阵 分 解 方法 来 提高 精确 度 。 


工作 广告 候选 者 KA 男人 


了 工作 匹配 DERAS 
13-5 将 链 路 预测 与 互惠 推荐 相关 联 


13.9 ag 


本 章 回 顾 了 推荐 系统 中 的 几 个 高 级 主题 ， 如 组 推荐 、 多 标准 推荐 、 主 动 学 习 和 隐私 。 此 
外 ， 本 章 涵盖 了 推荐 系统 的 一 些 有 趣 的 应 用 。 
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小 组 推荐 旨 在 向 可 能 有 不 同 兴趣 的 用 户 构 成 的 小 组 提供 建议 。 一般 来 说 ， 直 接 的 平均 
方法 可 能 不 总 是 奏效 ， 因 为 在 推荐 过 程 中 有 各 种 社会 因素 。 在 多 标准 推荐 系统 中 ， 使 用 不 
同 的 用 户 兴趣 来 提供 更 多 强大 的 建议 。 基 本 思想 是 当 不 同 标准 的 用 户 评分 细节 可 用 时 ， 用 
户 行为 可 以 更 精确 地 被 建 模 。 

主动 学 习 的 问题 旨 在 研究 推荐 系统 中 评分 获取 的 问题 。 评 分 获取 有 时 是 昂贵 的 。 因 
此 ,需要 设计 技术 以 明智 地 查询 用 于 评分 的 特定 用 户 一 物品 组 合 。 在 推荐 系统 中 的 主动 学 
习 与 分 类 中 的 主动 学 习 非 常 相似 。 

隐私 仍然 是 推荐 系统 的 重大 挑战 ， 正 如 在 任何 其 他 领域 一 样 。 隐 私 保 护 可 以 在 数据 收 
集 时 或 在 数据 发 布 时 执行 。 在 数据 收集 时 保护 隐私 的 方法 通常 提供 更 好 的 保证 ， 但 是 从 基 
础 设施 的 角度 来 看 ， 它 们 更 难 实现 。 

近年 来 已 经 提出 了 用 于 推荐 系统 的 许多 应 用 。 一 些 示例 包括 查询 推荐 、 新 闻 个 性 化 、 
计算 广告 和 互惠 推荐 。 本 章 对 这 些 领 域 的 一 些 基本 方法 进行 了 介绍 。 


13.10 相关 工作 

排名 学 习 问 题 在 分 类 、 互 联网 搜索 和 信息 检索 中 被 广泛 研究 05,15,284,37] 。 从 推荐 系 
统 的 角度 ， 排 名 学 习 的 教程 可 以 在 [323] 中 找到 。 排 名 方法 可 以 是 成 对 的 方法 或 列表 的 
方法 3 。 成 对 的 方法 包括 贝 叶 斯 个 性 化 排名 模型 (BPR), EigenRank 模型 35]、 
pLPA[368] 和 CRL59] 。 列 表 的 方法 包括 CoFiRankl®], CLIMF, xCLIMF 和 几 个 其 他 变 
FAS 48) 。 这 些 方法 中 的 一 些 也 已 被 推广 到 上 下 文 情 境 [549] 。 


多 臂 赌 博 机 方法 可 以 看 作 是 一 类 增强 的 学 习 算 法 5578] 。 关 于 几 个 赌博 机 算法 的 简单 讨 
论 可 以 在 [628] 中 找到 ， 尽 管 这 本 书 是 关于 网 站 优化 的 。 为 推荐 系统 设计 的 赌博 机 算法 
在 [92, 348] 中 讨论 。[349] 中 的 工作 引入 了 在 离线 环境 中 评估 赌博 机 算法 的 问题 。 计 
算 广 告 中 使 用 多 臂 赌 博 机 的 内 容 在 [160，290] 中 讨论 。 

组 推荐 系统 在 [271，272，407，408] 中 有 详细 讨论 。 有 关 组 推荐 系统 中 社会 因素 的 
综述 可 以 在 [489] 中 找到 。 组 推荐 的 基于 案例 的 方法 在 [413，415] 中 讨论 。 组 推荐 已 
经 在 许多 领域 被 应 用 ， 如 电影 [69] 、 电 视 [653] 、 音 乐 02 和 旅游 [52,272,93] 。 在 [409，654] 
中 讨论 了 组 推荐 系统 的 平均 策略 的 限制 。[407] 中 介绍 了 组 推荐 系统 的 各 种 聚集 策略 ， 例 
如 多 重 投票 、 乘 法 聚合 、 波 尔 达 计数 、 谷 轮 规 则 、 批 准 投票 和 公平 性 。 对 不 同 策略 之 间 的 
实验 比较 也 包括 在 该 项 工作 中 。 某 些 情况 下 ， 人 们 对 具有 物品 序列 的 复杂 物品 推荐 感 兴 
趣 。 一 个 例子 是 一 组 观众 观看 电视 节目 的 情况 ， 其 中 推荐 可 以 包含 若干 个 不 同类 型 的 电视 
节目 。 在 这 种 情况 下 ， 物 品 的 排序 也 很 重要 。 这 种 系统 在 [407] 中 讨论 。 

多 标准 推荐 系统 的 调查 可 以 在 (11, 398, 604] 中 找到 。 多 标准 推荐 问题 首先 在 
[12] 的 开创 性 工作 中 被 定义 。 多 标准 推荐 系统 中 基于 近邻 的 方法 在 L12，399，596] 中 
讨论 。[L399] 提出 了 三 种 不 同 的 方法 来 执行 近邻 方法 中 的 聚集 相似 性 计算 。 然 而 ， 整 体 方 
法 和 (12) 中 讨论 的 原理 没有 不 同 。 在 12] 中 也 提出 了 基于 集成 的 方法 。 在 多 标准 推荐 
系统 的 背景 下 ， 也 有 许多 基于 模型 的 方法 被 提出 ， 包 括 灵活 混合 模型 529 和 多 线性 奇异 值 
分 解 “MSVD) 方法 [5 。 对 于 总 体 评 分 不 可 用 的 情况 ， 也 有 方法 提出 。 例 如 ，[328] He 
出 将 各 种 标准 下 的 预测 评分 与 一 种 效用 添加 方法 CUTA) 相 结 合 的 技术 。[L276] PHT 
作 使 用 支持 向 量 回 归 模 型 来 确定 不 同 标准 的 相对 重要 性 。 这 些 技术 被 用 于 将 基于 用 户 和 基 
于 物品 的 回归 模型 与 加 权 方 法 相 结 合 。Pareto- 最 优 方法 在 [340] 中 提出 了 在 餐厅 评分 系 
统 上 使 用 skyline 查询 。 
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主动 学 习 方法 的 详细 综述 参见 [513]。 但 这 个 综述 主要 是 基于 分 类 问题 ， 因 为 它 在 
推荐 系统 中 的 可 用 工作 很 有 限 。 近 年 来 只 有 有 限 的 关于 推荐 系统 上 主动 学 习 的 工 
作品 32194,257.295.330,578] 被 提出 。 主 动 学 习 领 域 就 推荐 的 问题 而 言 仍 然 相当 开放 。 有 趣 的 一 
类 算法 ， 涉 及 时 间 协 同 过 滤 ， 是 多 臂 赌博 机 类 算法 中 的 一 种 ， 其 中 推荐 者 在 推荐 空间 中 需 
要 对 探索 与 利用 进行 权衡 [8?'348] 。 

隐私 保护 技术 可 以 包括 使 用 扰动 技术 [55'38'484,485] 、 基 于 群 组 的 匿名 化 方法 [27 352,386.5211 
或 分 布 式 方法 [5,133,334,551,606] 。 扰 动 方法 和 分 布 式 技术 都 是 在 数据 收集 时 执行 隐私 保护 。 
这 提供 了 更 高 的 隐私 级 别 。 另 一 方面 ， 这 些 系统 通常 更 难 实现 ， 因 为 涉及 了 更 大 的 基础 设 
施 和 使 用 存储 数据 的 定制 问题 。 出 现 这 些 问 题 是 因为 存储 的 数据 不 能 被 传统 的 协同 过 滤 算 
法 所 使 用 。 基 于 组 的 匿名 化 技术 是 把 实体 集中 化 的 数据 进行 发 布 。 这 样 的 技术 更 受 欢迎 ， 
因为 输出 可 以 与 传统 的 协同 过 滤 算 法 结合 使 用 。 所 有 这 些 方法 都 受到 维度 601 的 影响 ， 其 
阻碍 了 对 高 维 数据 的 有 效 隐私 保护 。 在 [657] 中 提出 了 一 些 高 维和 稀 朴 数据 集 上 的 匿名 
化 方法 。 最 近 ，[189] 提出 了 差分 隐私 的 概念 ， 这 在 理论 界 很 受 欢 迎 ， 但 它 的 实际 应 用 和 
商业 用 途 仍然 受 限 。 差 别 隐私 矩阵 分 解 最 近 在 [372] 中 被 提出 。 将 收集 系统 视 为 不 信任 
实体 的 隐私 保护 方法 在 [642] 中 提出 。 

在 Web 域 中 的 推荐 系统 有 许多 专门 的 应 用 。 查 询 推荐 方法 尝试 着 向 特定 时 期 内 提出 
查询 的 用 户 推荐 类 似 的 查询 。 [57] 中 的 工作 返回 与 当前 查询 最 相似 的 具有 足够 的 流行 度 
(支持 度 ) 的 查询 。 支 持 度 的 大 小 是 依据 由 其 他 用 户 发 出 该 查询 且 对 应 结果 被 认为 相关 的 
次 数 来 度量 。[137] 将 当前 查询 以 及 当前 的 会 话 作 为 查询 建议 的 上 下 文 。 该 领域 中 一 个 有 
趣 的 想法 是 查询 流 图 (query flow graph)rso) ， 通 过 用 图 形 表示 用 户 的 潜在 查询 行为 来 做 
推荐 。[429] 使 用 随机 游 走 的 方法 在 查询 -URL 图 上 做 查询 推荐 。[244] 中 讨论 了 使 用 马 
尔 可 夫 模 型 做 查询 推荐 。 

动态 分 析 器 系统 在 [636」 中 讨论 。Web 门户 个 性 化 的 方法 在 [34] 中 讨论 。[134] 中 
讨论 了 使 用 语义 语 境 化 做 新 闻 推 荐 。 这 项 工作 是 基于 第 8 章 中 上 下 文 推荐 的 思想 。[175] 更 
详细 地 描述 了 Google 新 闻 个 性 化 引擎 。 移 动 推荐 系统 在 【504] 中 讨论 。 

[28] 中 讨论 了 最 早 的 一 种 计算 广告 系统 。 然 而 ， 这 个 系统 不 是 基于 计算 广告 的 现代 
模型 。 最 近 有 关 该 系统 的 讨论 可 以 在 [106，107] 中 找到 。 计 算 广 告 的 石板 法 在 [290] 
中 讨论 。 在 一 些 情况 下 ， 线 性 收益 与 网 页 和 广告 的 特征 相关 联 。 在 这 类 情况 下 ，[160] 提 
出 了 LinUCB 算法 的 变形 。 计 算 广告 的 问题 与 互 串 推荐 [4801 问题 有 关 。 基 本 思想 是 当 考 虑 
对 多 个 具有 不 对 称 兴趣 的 利益 相关 人 的 推荐 的 效用 时 ， 推 荐 的 任务 会 发 生 改 变 。 这 种 应 用 
的 示例 包括 在 线 约会 [88 、 工 作 匹 配 53] 和 导师 一 学员 推荐 [0352] 。 
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Link Prediction (链接 预测 )，326 

Link Recommendation (链接 推荐 ) 22 

LinUCB Algorithm (LinUCB 算法 )，422 

LISTEN, 307 

Listwise Rank Learning (列表 排名 学 习 )，415 

LOCALBAL，364 

Location-Aware Recommender Systems (位 置 感知 
推荐 系统 ) 302 

Location-based Recommender Systems (基于 位 置 
的 推荐 系统 )，21 

Long-Tail Property (长 尾 特 征 )，32 

Love/Hate Attack (#/*#0tiH), 395 

Low-Knowledge Attack 〈 低 知识 攻击 )，386 

M 

MAE (平均 绝对 误差 )，241 

MAP (平均 精度 ) 246 

Markov Decision Process (马尔 可 夫 决 策 过 程 )，181 

Markovian Models (马尔 可 夫 模 型 ) 295 

Matrix Completion Problem 〈 和 扼 阵 补 全 问题 )，3，71 

Matrix Factorization for Link Prediction (链接 预测 
AY) AE SE). 330 

Maximum Margin Factorization 〈 最 大 裕 量 分 解 )，127 

Mean Absolute Error (平均 绝对 误差 )，241 

Mean Average Precision (平均 精度 )，246 

Mean Reciprocal Rank (平均 倒数 排名 ) ，246 
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Mean Squared Error (FRÆ), 230, 240 

Memory-based Collaborative Filtering 〈 基 于 记忆 的 
协同 过 滤 )，9，29 

Mentor-Mentee Recommendation (导师 一 学 员 推 
荐 )，443 

Minimum Support (最 小 支持 度 )，77 

MINRELAX, 180 

Missing Not at Random 〈 非 随机 缺失 )，251 

MNAR 〈 非 随机 缺失 )，251 

MobiDENK, 307 

Model-based Collaborative Filtering (基于 模型 的 协 
同 过 滤 )，71 

Modified Degree of Similarity (修改 的 相似 度 )，401 

Moleskiing, 350, 383 

MoleTrust, 356 

MovieLens, 5 

MRR (平均 倒数 排名 )，246，417 

MSE ( 均 方 误差 )，230，240 

MSVD (多 线性 奇异 值 分 解 )，447 

Multi-Arm Bandits (多 臂 赌博 机 ) 228, 306, 418 

Multi-Criteria Recommender Systems (多 标准 推荐 
FB), 24, 426 

Multi-Linear Singular Value Decomposition (多 线 
性 奇异 值 分解 ，MSVD) 447 

Multiplicative Aggregation (RERE), 447 

Multiverse Recommendation (多 元 推荐 ) 269 

Music Genome Project (音乐 基因 组 计划 )，144 

Music Recommendation (音乐 推荐 )，144 

MusicFX Group Recommender (MusicFX 组 推荐 )，423 

MyMap, 307 

N 

Naive Bayes Collaborative Filtering (朴素 贝 叶 斯 协 
同 过 滤 )，82 

NDCG“〈 归 一 化 折扣 累计 收益 ) 245 

Neighborhood-based Collaborative Filtering (基于 
近邻 的 协同 过 滤 )，9，29，33 

Netflix Recommendation Challenge (Netflix 推荐 挑 
战 )，5 

News Personalization (新 闻 个 性 化 )，436 

Node Recommendation ( 结 点 推荐 ) 22 

Non-negative Matrix Factorization 〈 非 负 和 矩阵 分 
解 )，119 

Normalized Deviation( 归 一 化 偏差 );，149 

Normalized Discounted Cumulative Gain (9 — 4b if 
扣 累 计 收 益 )，245 
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Novelty (新 奇 度 ) ，161，233 

Novelty in Evaluation (新 奇 度 的 评价 ) 233 

NPD (预测 差异 值 )，399 

Number of Prediction Differences (预测 差异 值 )，399 

O 

Observed Ratings (已 观测 评分 )，8 

OLAP (在 线 分 析 过 程 )，257 

One class Collaborative Filtering ( 单 类 协同 过 滤 )，120 

Online Analytical Processing (在 线 分 析 过 程 )，257 

Online Attack Detection (在 线 检测 攻击 )，403 

Online Dating Recommendations (在 线 约会 推荐 )，443 

Online Evaluation (在 线 评估 ) 227 

Online Recruitment Recommendation (在 线 招 聘 推 
荐 )，196 

Opinion Mining (意见 挖掘 ) 146 

Ordinal Ratings (顺序 评分 )，31 

OrdRec, 415 

Out-of-Sample Recommendations (样本 外 的 推荐 )， 
14, 111, 116 

Overfitting (过 度 拟 合 )，73 

Overspecialization (过 度 特 化 ) 161 

P 

PageRank, 311 

Pairwise Interaction Tensor Factorization (成 对 交 
互 张 量 分 解 )，270，373 

Pairwise Rank Learning (成 对 排名 学 习 )，415 

Parallel Ensemble (并 行 集 成 )，202 

Pearson Correlation Coefficient (Pearson 相关 系数 )，35 

Performance-Based Models (基于 性 能 的 模型 )，432 

Persistent Personalization in Knowledge-based Sys- 
tems (基于 知识 的 系统 的 持久 个 性 化 )，194 

Personal WebWatcher, 164 

Personalized PageRank (个 性 化 的 PageRank), 314 

Phrase Extraction (短语 提取 )，145 

Pipelined Ensemble (流水 线 集成 )，202 

PITF (成 对 交互 张 量 分 解 )，270，373 

PLSA (概率 隐语 义 分 析 )，127 

Plurality Voting (多 重 投票 )，447 

Pointwise Rank Learning (点 态 排名 学 习 )，415 

PolyLens Group Recommender (PolyLens 组 推荐 )， 
423 

Popular Attack (流行 攻击 )，395 

Popular Items (流行 物品 )，32 

Popular Page Attack (流行 页 面 攻 击 )，398，409 

Portal Content Personalization (门户 内 容 个 性 化 )，435 


Post-filtering (后 过 滤 )，266，289 

Power-Iteration Method ( 徊 迭代 法 )，314 

Pre-filtering ( 预 过 滤 ) 262, 289 

Prediction Shift (预测 偏 移 ) 390, 391 

Preference Locality (偏好 地 点 )，302 

Preprocessing in Content-based Systems (基于 内 容 
的 系统 预 处 理 )，142 

Principal Component Analysis 〈 主 成 分 分 析 ) 48 

Privacy in Recommender Systems (推荐 系统 中 的 隐 
私 问题 )，25，432 

Probabilistic Latent Semantic Analysis (概率 隐语 义 
分 析 )，127 

Probe Attack (探测 攻击 )，396 

Product Recommendations with Social Cues (具有 
社交 线索 的 产品 推荐 ) 23 

Profile Association Rules (画像 关联 规则 )，81 

Projected Gradient Descent (投影 梯度 下 降 法 ) 116 

Q 

Query Recommendation (查询 建议 ) 435 

Query-Flow Graphs (查询 流程 图 )，448 

QUICKXPLAIN, 180 

Qwikshop, 196 


R-score, 244 

Random Attack (随机 攻击 )，393 

Random Walks (随机 游 走 )，312 

Randomness Injection (随机 性 注入 )，211 

Ranking Algorithms (排序 算法 ) 311 

Rating Deviation from Mean Agreement (评分 差 
1), 400 

Raw Cosine (原始 余弦 ) 36 

RDMA (Attack Detection) 
Wi), 400 

Recency-Based Collaborative Filtering (基于 新 近 的 
协同 过 滤 )，286 

Reciprocal Recommendations (互惠 推荐 ) 443, 448 

Reciprocal Relationship Prediction (互惠 关系 预 
WD, 443 

Recommendation Query Language (推荐 查询 语言 )， 
259, 280 

Reduction-Based Multidimensional Approach (基于 
降 维 的 多 维 方法 ) ，262 

Regression Trees for Collaborative Filtering (用 于 
协同 过 滤 的 回归 树 )，74 

Regression-based Models (基于 回归 的 模型 )，158 


(评分 差异 (攻击 检 


Regularization (规则 化 ) 54, 100 

Reinforcement Learning (#3458), 181, 228, 418 

Relevance Feedback (相关 性 反馈 )，152 

Repair Proposals (修补 建议 )，179 

Replacement Critique (更 换 评 论 )，188 

REQUEST, 280 

Restaurant Recommender (48H #E #4). 213 

Reverse Bandwagon Attack ( 反 向 bandwagon 攻 
iH), 396 

Right Eigenvector ( 右 特征 向 量 )，314 

RIPPER, 217 

RMSE ( 均 方 根 误差 ) 230, 240 

Robust Matrix Factorization 〈 健 壮 的 矩阵 分 解 )，405 

Robust Recommender Systems (健壮 的 推荐 系统 )，403 

Robust Regression (健壮 回归 )，207 

Robustness (健壮 性 )，235 

Rocchio Classification (Rocchio 分 类 )，152 

Root Mean Squared Error ( 均 方 根 误差 ，RMSE)， 
230, 240 

RQL (推荐 查询 语言 )，259，280 

Rule-based Collaborative Filtering (基于 规则 的 协 
同 过 滤 )，77 

S 

Scalability (可 拓展 性 )，235 

Segment Attack (分 段 攻击 )，396 

Selective Markov Models (选择 性 马尔 可 夫 模 型 )，298 

Sentimental Analysis (情感 分 析 )，146 

Sequential Ensemble (流水 线 的 集成 系统 )，202 

Sequential Pattern Mining (序列 模式 挖 据 )，300 

Serendipity 〈 惊 喜 度 ) 161, 233 

Serendipity in Evaluation (惊喜 度 的 评价 )，233 

Shilling Attacks (欺诈 攻击 )，385 

Shills (欺诈 者 )，385 

Short Memory Assumption ( 短 记 忆 假 设 ) 297 

Significance Weighting (显著 性 加 权 )，37 

Simple Critiques (简单 批评 )，188 

SimRank, 321 

Single Attack Profile Detection 〈 单 体 攻 击 画 像 探 
测 )，399 

Singular Value Decomposition (奇异 值 分 解 )，48，113 

Slashdot，383 

Slate Problem for Multi-Armed Bandits (多 臂 赌博 
机 石板 问题 ) 442 

SLIM ( 稀 朴 线性 模型 )，58，136，218 

SLIM with Side Information (稀疏 性 模型 辅助 信 
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息 )，218 

Slope-One Predictors (slope-one 预测 器 ) 68. 136 

Smoothing Support Vector Machines (平滑 支持 向 
HEAL), 86 

Social Choice Theory 〈 社 会 选择 理论 ) 424 

Social Context (社交 上 下 文 )，345 

Social Influence Analysis (社会 影响 力 分 析 )，337 

Social Recommender Systems (社交 推荐 系统 )，22 

Social Streams (社交 流 )，341 

Social Tagging (社会 性 标签 )，23，366 

Social Trust for Attack Detection (攻击 检测 的 社交 
信任 ) 404 

SocialMF, 365 

SocialRank, 317, 373 

Sparse Linear Models ( ffi Bi AY R YE HH), 58, 
136, 218 

Spearman Rank Correlation Coefficient (Spearman 
排名 相关 系数 )，243 

Specified Ratings (已 知 评分 )，8 

SPETA, 307 

Sponsored Search (赞助 搜索 )，439 

Stability (稳定 性 )，235 

Standardization (标准 化 )，38 

Stemming ( 词 干 提取 )，145 

Stochastic Gradient Descent (随机 梯度 下 降 法 )，99 

Stop-Words ( 停 用 词 )，145 

STREAM, 224 

Subagging (Subagging 算法 )，209 

Subsampling (二 次 抽样 方法 )，209 

Supervised Attack Detection (监督 的 攻击 检测 )，399 

Support (支持 度 ) 77 

Support-pruned Markov Model (支持 度 剪 枝 的 马尔 
可 夫 模 型 )，298 

SVD++, 113 

SVD Feature (SVD ##7E). 276 

Symmetric Matrix Factorization 〔( 对 称 矩 阵 分 解 )，333 

Syskill & Webert，164 

7 

Tag Informed Collaborative Filtering (提供 标签 的 
协同 过 滤 )，370 

TagiCoFi, 380 

Tagommenders (标签 推荐 )，370 

Tags (标签 ) 366 

Temporal Recommender Systems (时 间 推 荐 系 
统 )，283 
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Tensor Factorization ( 张 量 分 解 )，269 

The Ensemble (集成 的 )，201 

TidalTrust〈 蒂 达尔 信任 )，353 

Tie-Corrected Spearman Coefficient (约束 校正 的 
Spearman 系数 ) 243 

Tikhonov Regularization (Tikhonov 正则 化 )，105，158 

Time-Periodic Biased ANN (时 间 周 期 偏 移 ANN 
法 )，288 

Time-Sensitive Recommender Systems (时 间 敏 感 的 
推荐 系统 )，21，283 

Time-SVD++, 291 

Top-k Recommendation Problem (fj k A HE [A 
i), 3 

Topic-Sensitive PageRank (话题 敏感 PageRank), 314 

Transductive Models (HERH), 14, 116 

Travel Decision Forum (旅游 决策 论坛 )，423 

Travel Locality 〈 旅 游 位 置 )，302 

Travel Recommendations 〈 旅 游 推 荐 ) 196 

Tree-Matching Algorithm 〈 树 匹配 算法 )，144 

Trust (信任 度 )，349 

Trust Aggregation (多 条 路 径 的 信任 聚集 )，351 

Trust in Evaluation (信任 的 评价 )，232 

Trust Metrics (信任 测度 )，351 

Trust Network (信任 网 络 )，350 

Trust Propagation (信任 传播 )，351 

Trust Weighted Mean (信任 加 权 平 均值 )，353 

Trust-Enhanced Recommender Systems (信任 增强 
推荐 系统 )，351 

TrustWalker (信任 游 走 )，357 

Trustworthy Recommender Systems (信任 推荐 系 
统 )，23 

Tucker Decomposition (Tucker 分 解 )，269 

U 

Unary Ratings (一 元 评分 )，32 

Unbalanced Rating Scale (不 平衡 评分 表 )，10 

Unconstrained Matrix Factorization (无 约束 矩阵 分 
解 )，96 


UnRAP Algorithm (UnRAP 算 法) 402 

Unsupervised Attack Detection (无 监督 式 攻 击 检 
测 )，399 

Upper Bounding for Bandit Algorithms (赌博 机 算 
法 的 上 界 ) 421 

User Selection Bias 〈 用 户 选择 误差 )，251 

User Studies (用 户 调 查 )，227 

User-based Neighborhood Models (基于 用 户 的 近 
邻 模型 )，34 

User-Item Graphs (用 户 一 物品 图 )，61 

User-Space Coverage (用 户 一 空间 覆盖 率 )，231 

User-User Graphs (用 户 一 用 户 图 )，63 

Utility Matrix (效用 矩阵 )，11 

Utility-Based Recommender Systems (基于 效用 的 
推荐 系统 )，18 

V 

Variable Selection in PCA ( 主 成 分 分 析 中 的 变量 选 
择 )，402 

Vector-Space Representation (空间 向 量 表示 )，145 

Viral Marketing (病毒 式 营 销 )，23，338 

VITA Recommender (VITA 推荐 )，196 

w 

Wasabi Personal Shopper (Wasabi 个 人 购物 车 )，196 

WDA (Attack Detection) (加 权 一 致 度 (攻击 检 
测 ))，401 

WDMA (Attack Detection) (平均 一 致 性 的 加 权 偏 
差 (攻击 检测 ))，401 

Web of Trust (信任 网 络 )，350 

Web personalization (网 络 个 性 化 )，295 

WebMate System (WebMate 系统 )，164 

Weighted Degree of Agreement (加 权 一 致 度 ， 
WDA), 401 

Weighted Deviation from Mean Agreement (平均 一 
致 性 的 加 权 偏 差 , WDMA), 401 

Window-Based Temporal Methods (基于 窗口 的 时 
间 方 法 )，288 





推荐 系统 原理 与 实践 


Recommender Systems The Textbook 


推荐 系统 是 一 种 预测 用 户 对 商品 和 信息 的 喜好 的 模型 ， 可 以 帮助 用 户 发 现 自己 感 兴趣 的 信息 和 商品 。 构 
建 推荐 系统 时 ， 既 要 考虑 效率 ， 也 要 考虑 有 效 性 ; 既 要 考虑 用 户 心 理 ， 也 要 考虑 用 户 的 行为 ， 既 要 考虑 商品 
和 信息 的 外 在 属性 ， 又 要 考虑 商品 和 信息 的 相互 关联 。 由 于 其 综合 性 和 复杂 性 ， 推 荐 系统 可 以 看 成 是 数据 
库 、 自 然 语言 处 理 、 机 器 学 习 、 信 息 检索 、 算 法 甚至 心理 学 等 领域 的 综合 与 交叉 。 本 书 从 上 述 庞杂 知识 领域 
中 梳理 出 一 个 完整 的 知识 体系 ， 有 助 于 初学 者 系统 地 学 习 推 荐 系统 知识 。 


本 书 特点 


o 本 书 从 原理 、 技 术 、 应 用 角度 对 推荐 系统 进行 全 面 介绍 。 首 先 介绍 重要 的 推荐 系统 算法 ， 包 括 它们 的 优 
缺点 以 及 适用 场景 ; 然后 ， 在 特定 领域 场景 和 不 同类 型 的 输入 信息 以 及 知识 基础 的 背景 下 研究 推荐 问 
题 ; 最 后 ， 讨 论 推荐 系统 的 高 级 的 话题 ( 包括 攻击 模型 、 组 推荐 系统 、 多 标准 系统 和 主动 学 习 系统 ) ; 
此 外 ， 还 涉及 推荐 系统 的 实际 应 用 ， 比 如 新 闻 的 推荐 和 计算 广告 等 。 

e 本 书 对 推荐 系统 的 介绍 兼顾 原理 性 和 应 用 性 。 作 者 没有 回避 推荐 技术 原理 中 大 量 深入 的 数学 方法 ， 同 时 
洱 盖 推荐 系统 涉及 的 众多 技术 和 实际 应 用 ， 使 读者 知 其 然 更 知 其 所 以 然 ， 做 到 理论 和 实际 的 有 效 融合 。 
@ 无 论 是 学 生 、 研 究 人 员 还 是 开发 人 员 ， 都 能 从 本 书 中 获 益 。 对 于 在 校 学 生 ， 本 书 利用 大 量 的 图 示 、 实 例 
来 描述 各 种 概念 和 技术 ， 并 且 在 每 章 末 提供 习题 ， 以 便于 学 生 深 入 理解 和 掌握 相关 技术 ;对 于 研究 人 
员 ， 本 书 的 每 一 章 均 从 文献 角度 阐述 技术 ， 并 对 所 涉及 的 研究 工作 进行 了 分 析 和 比较 ， 有 助 于 研究 人 员 


了 解 当前 技术 的 不 足 和 有 待 解决 的 问题 ; 对 于 开发 人 员 ， 本 书 提供 了 大 量 的 推荐 模型 和 算法 ， 并 对 其 应 
用 场景 进行 有 针对 性 的 介绍 ， 从 而 帮助 开发 人 员 根 据 实际 系统 的 要 求 选择 相应 的 推荐 模型 和 算法 。 
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